中国高校课件下载中心 》 教学资源 》 大学文库

武汉理工大学:《模式识别》课程教学资源(PPT课件)第5章 特征选择与特征提取

文档信息
资源类别:文库
文档格式:PPT
文档页数:47
文件大小:1.93MB
团购合买:点击进入团购
内容简介
5.1 基本概念 5.2 类别可分性测度 5.3 基于类内散布矩阵的单类模式特征提取 5.4 基于K-L变换的多类模式特征提取
刷新页面文档预览

第5章特征选择与特征提取

第5章特征选择与特征提取5.1基本概念5.2类别可分性测度5.3基于类内散布矩阵的单类模式特征提取5.4基于K-L变换的多类模式特征提取

5.1 基本概念 5.2 类别可分性测度 5.3 基于类内散布矩阵的单类模式特征提取 5.4 基于K-L变换的多类模式特征提取 第5章 特征选择与特征提取

5.1基本概念1.两种数据测量情况①由于测量上可实现性的限制或经济上的考虑,所获得的测量值为数不多。②能获得的性质测量值很多。如果全部直接作为分类特征,耗费机时,且分类效果不一定好。有人称之为“特征维数灾难”。特征选择和提取的目的:经过选择或变换,组成识别特征尽可能保留分类信息,在保证一定分类精度的前提下,减少特征维数,使分类器的工作即快又准确

5.1 基本概念 ① 由于测量上可实现性的限制或经济上的考虑,所获得的测量 值为数不多。 ② 能获得的性质测量值很多。如果全部直接作为分类特征,耗 费机时,且分类效果不一定好。有人称之为“特征维数灾难” 。 特征选择和提取的目的:经过选择或变换,组成识别特征, 尽可能保留分类信息,在保证一定分类精度的前提下,减少特征 维数,使分类器的工作即快又准确。 1.两种数据测量情况

2.对特征的要求(1)具有很大的识别信息量。即应具有很好的可分性。(2)具有可靠性。模棱两可、似是而非、时是时非等不易判别的特征应丢掉。(3)尽可能强的独立性。重复的、相关性强的特征只选一个。(4)数量尽量少,同时损失的信息尽量小。3.特征选择和特征提取的异同(1)特征选择:从L个度量值集合{x,x2,..x中按一定准则选出供分类用的子集,作为降维(m维,m<L)的分类特征。(2)特征提取:使一组度量值(x,X2,x)通过某种变换h产生新的m个特征(yi,y2,ym),作为降维的分类特征,其中i=1,2,.,m;m<L

(1) 具有很大的识别信息量。即应具有很好的可分性。 (2) 具有可靠性。模棱两可、似是而非、时是时非等不易判别 的特征应丢掉。 (3) 尽可能强的独立性。重复的、相关性强的特征只选一个。 (4) 数量尽量少,同时损失的信息尽量小。 2.对特征的要求 3. 特征选择和特征提取的异同 (1)特征选择:从L个度量值集合 中按一定准 则选出供分类用的子集,作为降维(m维,m < L)的分类 特征。 x1 , x2 , xL  (2)特征提取:使一组度量值 通过某种变换 产生新的m个特征 ,作为降维的分类特征, 其中 。 ( , , ) 1 2 L x x x () hi ( , , ) 1 2 m y y y i =1,2,  ,m; m  L

当模式在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果例:特征选择与特征提取的区别:对一个条形和圆进行识别。解:[法1]B①特征抽取:温测量三个结构特征(a)周长A(b)面积(c)两个互相垂直的内径比②分析:(c)是具有分类能力的特征,故选(c),扔掉(a)、(b)。特征选择:一般根据物理特征或结构特征进行压缩

(c)是具有分类能力的特征,故选(c), 扔掉(a) 、 (b) 。 B A 解:[法1] ① 特征抽取:测量三个结构特征 (a) 周长 (b) 面积 (c)两个互相垂直的内径比 —— 特征选择:一般根据物理特征或结构特征进行压缩。 ② 分析: 例:特征选择与特征提取的区别:对一个条形和圆进行识别。 当模式在空间中发生移动、旋转、缩放时,特征值应保持 不变,保证仍可得到同样的识别效果

X2xX2B2BB[法2]:①特征抽取:测量X2A2物体向两个坐标轴的投影A值,则A、B各有2个值域区X2B1间。可以看出,两个物体的XXIAI投影有重叠,直接使用投影X1B2X1A21B1值无法将两者区分开②分析:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在轴上投影的坐标值的正负可区分两个物体。一特征提取,一般用数学的方法进行压缩

[法2]:① 特征抽取:测量 物体向两个坐标轴的投影 值,则A、B各有2个值域区 间。可以看出,两个物体的 投影有重叠,直接使用投影 值无法将两者区分开。 ② 分析:将坐标系按逆时针方向做一旋转变化,或物体按顺时 针方向变,并适当平移等。根据物体在 轴上投影的坐标值的正 负可区分两个物体。 ' 2 x ——特征提取,一般用数学的方法进行压缩。 B A 2 x 1 x 2B2 x 2A2 x 2B1 x 2A1 x 1B1 x 1A1 x 1B2 x 1A2 x B 2 x 1 x ' 2 x ' 1 x

5.2类别可分性测度类别可分性测度:衡量类别间可分性的尺度相似性测度:衡空间分布:类内距离和类间距离量模式之间相似类别可性的一种尺度随机模式向量:类概率密度函数分性测度错误率一与错误率有关的距离5.2.1基于距离的可分性测度1.类内距离和类内散布矩阵1)类内距离:同一类模式点集内,各样本间的均方距离,平方形式:D?=Ell X,-X, IP)=E(X-X)(X,-X,)Xi,,X:n维模式点集X中的任意两个样本

5.2 类别可分性测度 5.2.1 基于距离的可分性测度 类别可分性测度:衡量类别间可分性的尺度。 相似性测度:衡 量模式之间相似 性的一种尺度 类内距离和类间距离 类概率密度函数 类别可 分性测 度 空间分布: 随机模式向量: 错误率 与错误率有关的距离 1.类内距离和类内散布矩阵 1) 类内距离:同一类模式点集内,各样本间的均方距离。 平方形式: {|| || } 2 2 D = E Xi − X j {( ) ( )} T = E Xi − Xj Xi − Xj Xi ,,Xj: n维模式点集{X}中的任意两个样本

若X中的样本相互独立,有D-2E(X'X)-2E(X")E(X)=2[E(X'X)-M"M]= 2tr[R- MM"]= 2t[C]=2Z,K--式中,R:该类模式分布的自相关矩阵:M:均值向量:C协方差矩阵;o:C主对角线上的元素,表示模式向量第k个分量的方差tr:矩阵的迹(方阵主对角线上各元素之和)。2)类内散布矩阵:表示各样本点围绕均值的散布情况该类分布的协方差矩阵。特征选择和提取的结果应使类内散布矩阵的迹愈小愈好

特征选择和提取的结果应使类内散布矩阵的迹愈 ?愈好。 小 2 { } 2 { } { } 2 T T D = E X X − E X E X 2[ { } ] = E X T X − M T M 2tr[ ] MM T = R− = 2tr[C] = = n k k 1 2 2  若{X}中的样本相互独立,有 式中,R:该类模式分布的自相关矩阵; M:均值向量; C:协方差矩阵;  k 2 :C主对角线上的元素,表示模式向量第k个分量的方差; tr:矩阵的迹(方阵主对角线上各元素之和)。 2) 类内散布矩阵:表示各样本点围绕均值的散布情况 ——该类分布的协方差矩阵

2类间距离和类间散布矩阵1)类间距离:模式类之间的距离,记为D,D, =Z P(O)II M,-M II -Z P(O )(M, - M)(M,-M.)式中,P(の):の类的先验概率;每类模式均值向量与模式总体均值向M:の类的均值向量量之间平方距离的M。:所有c类模式的总体均值向量先验概率加权和。M。=E(X) Xe0, i=1,2,..,cEP(o,)M,i=2)类间散布矩阵:表示c类模式在空间的散布情况,记为ShS, =-ZP(o,)(M, -M.)(M,- M.)i=l注意:与类间距离的转置位置不同。3)类间距离与类间散布矩阵的关系:D,=tr(Sb类间散布矩阵的迹愈大愈有利于分类

类间散布矩阵的迹愈大愈有利于分类。 2.类间距离和类间散布矩阵 1) 类间距离:模式类之间的距离,记为 Db 。 每类模式均值向量 与模式总体均值向 量之间平方距离的 先验概率加权和。 = = − c i Db P i i 1 2 0 2 ( )|| M M || = = − − c i P i i i 1 0 T 0 ( )(M M ) (M M ) 式中, ( ) P ωi : i 类的先验概率; Mi :i 类的均值向量; M0 :所有 c 类模式的总体均值向量。 M0 = EX i c i X  , =1,2,  , = = c i P i i 1 ( )M 2) 类间散布矩阵:表示c类模式在空间的散布情况,记为Sb。 = = − − c i b P i i i 1 T 0 0 S ( )(M M )(M M ) 类间散布矩阵的迹愈?愈有利于分类。 3) 类间距离与类间散布矩阵的关系: tr{ } 2 Db = Sb 注意:与类间距离 的转置位置不同

3.多类模式向量间的距离和总体散布矩阵1)两类情况的距离设の类中有g个样本,の,类中有p个样本。P个02共p×q个距离两个类区之间的距离=p×g个距离的平均距离类似地多类情况多类间任意两个点间距离的平均距离多类间任意两个点间平方距离的平均值

3.多类模式向量间的距离和总体散布矩阵 1)两类情况的距离 设ω1 类中有 q 个样本,ω2 类中有 p 个样本。 q个 p个 ω1 2 共p×q个距离 两个类区之间的距离 = p×q个距离的平均距离 多类间任意两个点间距离的平均距离 类似地 多类情况 多类间任意两个点间平方距离的平均值

刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档