北京师范大学:《社会科学统计软件及应用》教学资源(PPT课件讲稿)第9讲 降维分析与分类分析(归因分析)

第9讲降维分析与分类分析 (归因分析) 2015年12月
2015年12月 第9讲 降维分析与分类分析 (归因分析) 2

降维分析与分类分析的概念 >1、统计学中的降维分析简介 ◆(1)什么是降维分析? 在数据统计分析过程中,常常从多个视角制作调查或评价指 标,从而能够全面地反应调查对象的属性和特点。 然而,在调查完成后,常常发现以下问题: 多个指标项的语义有重叠; 需要获得凝练的分析结论。 。为此,需要对调硏指标进行凝练,减少评价指标的维数,使 结论变得更加易于表述和理解。 ◆(2)降维分析的前提条件 部分变量之间存在着高度的相关性(同类变量); 部分变量之间存在着显著差异性(不同类变量)
一、降维分析与分类分析的概念 ➢ 1、统计学中的降维分析简介 ◆(1)什么是降维分析? 在数据统计分析过程中,常常从多个视角制作调查或评价指 标,从而能够全面地反应调查对象的属性和特点。 然而,在调查完成后,常常发现以下问题: 多个指标项的语义有重叠; 需要获得凝练的分析结论。 为此,需要对调研指标进行凝练,减少评价指标的维数,使 结论变得更加易于表述和理解。 ◆(2)降维分析的前提条件 部分变量之间存在着高度的相关性(同类变量); 部分变量之间存在着显著差异性(不同类变量)。 3

降维分析与分类分析的概念 1、统计学中的降维分析简介 ◆(3)降维分析的常见手段 主成分分析 因子分析中的一种,寻求影响多个指标项的一个或多个主 成份(这些主成分的特征根在1以上 面向变量的聚类分析 对于调研数据,针对变量进行聚类,把多个变量分为若干 小组,形成几个聚结的变量集; 分析每个变量集的语义,形成凝结的维度。 对应分析 。对于调研数据来讲,综合性的结论通常与全体变量的取值 有关系。但是,某些情况下,某一特定变量的取值可能直 接影响最终结果。 。对应分析就是找出相关的两个变量之间取值对应关系的操 作
一、降维分析与分类分析的概念 ➢ 1、统计学中的降维分析简介 ◆(3)降维分析的常见手段 主成分分析 因子分析中的一种,寻求影响多个指标项的一个或多个主 成份(这些主成分的特征根在1以上) 面向变量的聚类分析 对于调研数据,针对变量进行聚类,把多个变量分为若干 小组,形成几个聚结的变量集; 分析每个变量集的语义,形成凝结的维度。 对应分析 对于调研数据来讲,综合性的结论通常与全体变量的取值 有关系。但是,某些情况下,某一特定变量的取值可能直 接影响最终结果。 对应分析就是找出相关的两个变量之间取值对应关系的操 作。 4

降维分析与分类分析的概念 >2、统计学中的分类分析简介 ◆(1)什么是分类分析 在数据统计与分析过程中,常常需要把成千上万的个案分成 若干类,以便于操作。例如,可以把学生分为男生、女生, 还可以把学生按照综合表现分为优等生、良好生、普通生和 差生。 。依据某些因素,对个案分类的过程就是分类 ◆(2)数据分类的基本条件 不同个案的属性取值离散化程度较高,存在着比较明显的差 别 。依据某几个属性,具备把个案分成几类的可能性
一、降维分析与分类分析的概念 ➢ 2、统计学中的分类分析简介 ◆(1)什么是分类分析 在数据统计与分析过程中,常常需要把成千上万的个案分成 若干类,以便于操作。例如,可以把学生分为男生、女生, 还可以把学生按照综合表现分为优等生、良好生、普通生和 差生。 依据某些因素,对个案分类的过程就是分类。 ◆(2)数据分类的基本条件 不同个案的属性取值离散化程度较高,存在着比较明显的差 别; 依据某几个属性,具备把个案分成几类的可能性。 5

降维分析与分类分析的概念 >2、实现分类分析的主要技术 ◆(1)聚类分析—面向个案 面向个案的聚类分析就是分类。 其目标是把众多个案聚结为较少的几个类别,以便总结规 律或者实施数据管理 (面向变量的系统聚类是降维分析,称为R聚类) °面向个案的聚类分析有两种技术 面向个案的系统聚类(也叫层次聚类),被称为Q聚类。 自动分层聚类, 从与个案数相同的类别数逐步聚结为1类,构成树状结构 K-Means聚类技术 √指定类别数的聚类 √基于用户指定的聚类类别数、类别中心点,开始聚类
一、降维分析与分类分析的概念 ➢ 2、实现分类分析的主要技术 ◆(1)聚类分析——面向个案 面向个案的聚类分析就是分类。 其目标是把众多个案聚结为较少的几个类别,以便总结规 律或者实施数据管理。 (面向变量的系统聚类是降维分析,称为R聚类) 面向个案的聚类分析有两种技术: 面向个案的系统聚类(也叫层次聚类),被称为Q聚类。 ✓自动分层聚类, ✓从与个案数相同的类别数逐步聚结为1类,构成树状结构 K-Means聚类技术 ✓指定类别数的聚类 ✓基于用户指定的聚类类别数、类别中心点,开始聚类。 6

降维分析与分类分析的概念 >2、实现分类分析的三种技术 ◆(2)判别分析 判别分析的概念 判别分析的过程是基于已有数据集制作分类规则的过程。 即系统接受用户提供的已有类别(基于某一变量取值分类, 内部包含若干样本),然后寻找基于其他变量的判别规则, 构造判定函数,以便基于判定函数对未来个案自动分类的 过程。 判别分析过程实际上是系统主动探索与学习的过程(类似 于多元回归分析),然后依据已经习得的规则,对其他个 案进行判定其归属类别
一、降维分析与分类分析的概念 ➢ 2、实现分类分析的三种技术 ◆(2)判别分析 判别分析的概念 判别分析的过程是基于已有数据集制作分类规则的过程。 即系统接受用户提供的已有类别(基于某一变量取值分类, 内部包含若干样本),然后寻找基于其他变量的判别规则, 构造判定函数,以便基于判定函数对未来个案自动分类的 过程。 判别分析过程实际上是系统主动探索与学习的过程(类似 于多元回归分析),然后依据已经习得的规则,对其他个 案进行判定其归属类别。 7

降维分析与分类分析的概念 >2、实现分类分析的三种技术 判别分析的示例 基本要求 ˇ某校收集了学生的很多项信息。其中有一条是“是否三 好学生”。现在需要找到一个判别函数,能够从学习成 绩、承担班级事务、参与社会活动、热心帮助其他同学 等维度来实现为尚未分类的学生自动分类的过程 基本思路 先根据已有的个案,把“是否三好学生”作为因变量 把“学习成绩、承担班级事务、参与社会活动、热心帮 助其他同学”作为自变量,让系统根据这些数据进行归 纳,最终构造出判定函数。 对于新同学,只需输入作为自变量的几个属性值,由系 统根据判定函数做出判定,找出检验概率值最大的类别, 作为最终类别
一、降维分析与分类分析的概念 8 ➢ 2、实现分类分析的三种技术 判别分析的示例 基本要求 ✓某校收集了学生的很多项信息。其中有一条是“是否三 好学生”。现在需要找到一个判别函数,能够从学习成 绩、承担班级事务、参与社会活动、热心帮助其他同学 等维度来实现为尚未分类的学生自动分类的过程。 基本思路 ✓先根据已有的个案,把“是否三好学生”作为因变量, 把“学习成绩、承担班级事务、参与社会活动、热心帮 助其他同学”作为自变量,让系统根据这些数据进行归 纳,最终构造出判定函数。 ✓对于新同学,只需输入作为自变量的几个属性值,由系 统根据判定函数做出判定,找出检验概率值最大的类别, 作为最终类别

、层次聚类分析 >1、层次聚类分析的概念 ◆(1)什么是层次聚类? SPS中的系统聚类,也叫层次聚类、分层聚类 。采用逐层、逐级聚类模式 。先把距离最近的若干元素归类,形成新元素点 再从新元素点中挑选距离最近的元素进一步聚类 直到所有元素都被聚集为同一类。 ◆(2)层次聚类的特点 是一种没有预设条件的聚类模式, 逐层、逐级聚类 最终所有元素聚集为一类
二、层次聚类分析 ➢ 1、层次聚类分析的概念 ◆(1)什么是层次聚类? SPSS中的系统聚类,也叫层次聚类、分层聚类。 采用逐层、逐级聚类模式 先把距离最近的若干元素归类,形成新元素点 再从新元素点中挑选距离最近的元素进一步聚类 直到所有元素都被聚集为同一类。 ◆(2)层次聚类的特点 是一种没有预设条件的聚类模式, 逐层、逐级聚类 最终所有元素聚集为一类。 9

、层次聚类分析 >2、层次聚类分析的类型 ◆Q聚类 是针对个案的聚类,目的是把个案按照距离关系逐级聚类 与生活中的分类思想完全一致 本质上是一种行聚类,把每行的数据作为一个处理元素 基本思路: 先计算不同元素(行数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类
二、层次聚类分析 ➢ 2、层次聚类分析的类型 ◆Q聚类 是针对个案的聚类,目的是把个案按照距离关系逐级聚类。 与生活中的分类思想完全一致。 本质上是一种行聚类,把每行的数据作为一个处理元素。 基本思路: 先计算不同元素(行数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类。 10

、层次聚类分析 ◆R聚类 。是针对变量的聚类,目的是把变量按照距离关系逐级聚类。 减少变量的数量,实现降维的目标 本质上是一种列聚类,把每列的数据作为一个处理元素 基本思路: 先计算不同元素(列数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类。 最终,通过观察聚类结果,体会各个变量之间的逻辑关系
二、层次聚类分析 11 ◆R聚类 是针对变量的聚类,目的是把变量按照距离关系逐级聚类。 减少变量的数量,实现降维的目标。 本质上是一种列聚类,把每列的数据作为一个处理元素。 基本思路: 先计算不同元素(列数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类。 最终,通过观察聚类结果,体会各个变量之间的逻辑关系
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《统计学》课程教学资源(PPT课件)第四章 集中趋势和离中趋势.ppt
- 北京师范大学:《社会科学统计软件及应用》教学资源(PPT课件讲稿)第7讲 数据的关联性分析(主讲:马秀麟).ppsx
- 《市场调查与预测 Marketing Research》课程教学资源(PPT课件讲稿)第七章 调查数据的分析.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第十章 双样本假设检验及区间估计.ppt
- 上海财经大学:《公共选择与政治立宪》课程教学资源(PPT课件讲稿)第七讲 其它多数规则.ppt
- 清华大学出版社:《统计学原理与实务》课程教学资源(PPT课件讲稿,共十章,主编:卜晓玲、李洁).ppt
- 《统计学》课程教学资源(PPT讲稿)潜变量的效应分析与循环效应及应用论文写作.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第十七章 分类资料的统计推断.ppt
- 《预测与时间序列》教学资源(PPT讲稿)Non-Seasonal Box-Jenkins Models(Four-step iterative procedures).ppt
- 东南大学:《统计学》课程教学资源(PPT课件)第十章 回归与相关 CORRELATION & REGRESSION.ppt
- 《统计学》课程教学资源(PPT课件讲稿)非参数方法(kn-近邻估计、k-近邻规则、距离度量).ppt
- 复旦大学:《博弈论》课程教学资源(PPT课件讲稿)LECTURE 2 MIXED STRATEGY GAME.ppt
- 《统计学原理》课程教学资源(PPT讲稿)平稳时间序列预测法.ppt
- 华北水利水电大学:《统计学原理》课程教学资源(PPT课件讲稿)第3章 抽样与抽样分布.pptx
- 《统计学》课程教学资源(PPT课件讲稿)8.2 FREQ过程 8.4 PLOT过程 8.5 CHART过程 9.1 t检验.ppt
- 回归分析法(PPT讲稿)Regression Method.ppt
- 《统计学》课程教学资源(PPT课件讲稿)项目六 统计基本分析指标(平均指标和变异指标).ppt
- 《统计学》课程教学资源(PPT课件讲稿)Chapter 07 定量变量的假设检验 hypothesis testing for quantitative variable.ppt
- 《概率统计》课程电子教案(PPT教学课件)第六章 参数估计与假设检验.ppt
- 《统计学》课程教学资源(PPT课件讲稿)项目九 抽样推断(总体的区间估计和样本容量的确定).ppt
- 《统计学》课程教学资源(PPT课件)项目十 相关与回归分析——相关关系的测定及回归模型的建立.ppt
- 《医学统计学》课程教学资源(PPT课件讲稿)第十三章 医学统计学方法的基本概念和基本步骤、常用统计分析软件简介.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第一章 基础统计学回顾.ppt
- 《医学统计学》课程教学资源(PPT课件讲稿)方差分析、假设检验时应注意的事项.ppt
- 《医学统计学》课程教学资源(PPT课件)第十九章 统计表和统计图.ppt
- 华中科技大学:《多元统计分析》课程教学资源(PPT课件讲稿)社会统计学导论.ppt
- 中国人民大学:《统计学》课程PPT教学课件(第三版)第4章 概率与概率分布(作者:贾俊平).ppt
- 《房地产金融》课程教学资源(PPT课件讲稿)第四章 个人住房贷款.ppt
- 《概率论与数理统计》课程教学资源(PPT课件讲稿)第八章 假设检验.ppt
- 《应用回归分析》课程教学资源(PPT课件讲稿)第7章 岭回归.ppt
- 《社会统计分析方法》课程PPT教学课件(SPSS软件应用)第五章 因子分析.ppt
- 《数理统计》课程PPT教学课件(统计推断)统计量与抽样分布.pptx
- 《应用概率统计》课程教学资源(PPT课件讲稿)第1章 事件与概率.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第十一章 线性相关与回归.ppt
- 《应用回归分析》课程教学资源(PPT课件讲稿)第6章 多重共线性的情形及其处理.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第五章 抽样调查.ppt
- 《计量经济学》课程教学资源(PPT课件讲稿)数据的来源.ppt
- 中国人民大学:《统计学》课程PPT教学课件(第三版)第13章 非参数检验.ppt
- 《社会统计学》课程教学资源(PPT课件讲稿)第十三章 卡方检验与方差分析.ppt
- 中国人民大学:《统计学》课程PPT教学课件(第三版)第12章 聚类分析.ppt