中国高校课件下载中心 》 教学资源 》 大学文库

哈尔滨工业大学:《高等统计学》课程教学资源(PPT课件)第三讲 聚类分析

文档信息
资源类别:文库
文档格式:PPT
文档页数:114
文件大小:2.36MB
团购合买:点击进入团购
内容简介
聚类分析 1 聚类分析的基本思想 2 相似度的度量 3 种系统聚类法 4 系统聚类方法的SPSS实现 5 K-均值聚类法的SPSS实现
刷新页面文档预览

聚类分析 1聚类分析的基本思想 相似度的度量 五种系统聚类法 4系统聚类方法的SPS9现 5K-均值聚类法的SPS实现

聚类分析 1 聚类分析的基本思想 2 相似度的度量 3 五种系统聚类法 4 系统聚类方法的SPSS实现 5 K-均值聚类法的SPSS实现

聚类分析原理 o聚类分析的对象 1对样本进行分类 2.对指标或变量进行分类 聚类分析方法 1.糸统聚类法(分层聚类) 2.动态聚类法(K-均值聚类)

聚类分析原理  聚类分析的对象 1.对样本进行分类 2.对指标或变量进行分类  聚类分析方法 1.系统聚类法(分层聚类) 2.动态聚类法(K-均值聚类)

系统聚类法与聚类步骤流程图 初始分类:G1={x1}G2={x2)…Gn={xn ken 若G与G距离最小合并为一类 k<n-1 类与类之间距离定 义的不同导致不同 k=K no 的系统聚类方法 yes 输出分类结果

系统聚类法与聚类步骤流程图 初始分类:  ,  ,  ; 1 1 2 2 n n G = x G = x G = x k n 若 Gi 与 Gj 距离最小,合并为一类 k n−1 k = K no 输出分类结果 yes 类与类之间距离定 义的不同导致不同 的系统聚类方法

动态聚类法K-均值聚类)与聚类步骤流程图 寻找K个凝聚点:x1,2,…,XK 若小(x,x)mm(x1x)则x∈G:得G,G2…,G 计算各类的重心:x12x2,…2xk 若减(x,x)=m(x,x)则x∈G:得G,G2,…Gk 计算各类的重心:x1 “K 重心改变yes I no 输出分类结果

yes 动态聚类法(K-均值聚类)与聚类步骤流程图 寻找K个凝聚点: i i iK x , x , , x 1 2  若 d(xl , xik ) = 1 min  jK d(xl , xij) 则 xl Gk 0 ;得 0 0 2 0 1 , , , G G  GK 计算各类的重心: x x xK , , , 1 2  若 d(xl , xk ) = 1 min  jK d(xl , xj ) 则 xl Gk ;得 G G GK , , , 1 2  计算各类的重心: K x , x , , x 1 2  重心改变 输出分类结果 no

相似度的度量(样本间的距离) O欧式距离(Xx,X)=(Xx-X)(X-X 样本离差阵 o马氏距离d2(X,X)=(X-X)S(x1-X1) d(X,G=(X-XS (X-X 点到总体的马氏距离 O明氏距离 d,(q)=

相似度的度量(样本间的距离)  欧式距离  马氏距离  明氏距离 ( , ) ( ) ( ) 2 Xi X j Xi X j Xi X j d = −  − ( , ) ( ) ( ) 2 1 i j i j Xi X j d X X = X − X S − − q q p k ij ki kj d q x x 1 1 ( ) ( ) = = − ( , ) ( ) ( ) 2 1 d X G = X − X S X − X − 一点到总体的马氏距离 样本离差阵

相似度的度量(指标间的相似系数) O夹角余孩 O相关糸数

相似度的度量(指标间的相似系数)  夹角余弦  相关系数 O a b 

指标1与指标2间的夹角余弦 X1→(x1 n X,→x21 22 x2n X→x P 2 pn Ikk k: 12 2k k=1

指标1与指标2间的夹角余弦    = = = = n k n k k k n k k k x x x x C 1 1 2 1 2 2 2 1 1 1 2 1 2 [( )( )]                                           p n n n p p x x x x x x x x x     2 1 2 2 2 1 2 1 2 1 1 1 , , , X1  X2  X p 

指标1与指标2间的相关系数 ∑(xk-x)x2k R k=1 12 ∑(x1k-x)∑(x2k-x2)22 k=1

指标1与指标2间的相关系数 1 2 1 1 2 2 2 2 1 1 1 1 1 2 2 1 2 [ ( ) ( ) ] ( )( )    = = = − − − − = n k n k k k n k k k x x x x x x x x R

五种系统聚类方法 最短距离法( nearest neighbor) d(G, G q min d(xi, x X;∈Gn,X;∈G ②最长距离法( furthest neighbor) d(Gn, Ga)= max d(X,x P X;∈Gn,X;∈G ●重心法( centroid clustering) d(,, Go=d(xn,ka

五种系统聚类方法 最短距离法(nearest neighbor) 最长距离法(furthest neighbor) 重心法( centroid clustering ) ( , ) min ( , ) , i j X G X G d Gp Gq d X X i  p j  q = ( , ) max ( , ) , i j X G X G d Gp Gq d X X i  p j  q = ( , ) ( , ) d Gp Gq = d Xp Xq

9类平均法( Average linkage) ∑∑叭(X,X) p'q XEGp Xi p>q ∑∑d(X1,X pg Xi∈CpX/∈Gq

类平均法(Average linkage)     = Xi Gp X j Gq i j p q p q d X X n n d G G ( , ) 1 ( , )     = Xi Gp X j Gq i j p q p q d X X n n d G G ( , ) 1 ( , ) 2 2

刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档