中国高校课件下载中心 》 教学资源 》 大学文库

武汉理工大学:《模式识别》课程授课教案(讲义)第6章 特征提取与选择

文档信息
资源类别:文库
文档格式:PDF
文档页数:16
文件大小:667.96KB
团购合买:点击进入团购
内容简介
武汉理工大学:《模式识别》课程授课教案(讲义)第6章 特征提取与选择
刷新页面文档预览

第6章特征提取与选择模式识别的主要任务是设计分类器,将样本划分为相应的类别,获得好的分类性能。而前面章节讨论的分类器设计方法,都是认为样本的特征已经确定,各类样本都分布在由该特征所决定的空间内。因此分类器设计问题是一个使用什么方法,将已确定的特征空间合理划分的问题。分类器设计方法固然重要,但样本的特征选择与提取也是模式识别系统的一个关键的问题。好的特征可以使同类样本的分布更具加紧密,不同类别样本则在该特征空间中更加分开,这就为分类器设计奠定了良好的基础。反之,如果不同类别的样本在该特征空间中混杂在一起,再好的设计方法也无法提高分类器的准确性。本章要讨论的问题就是给定训练样本集,如何设计特征空间的问题。6.1 类别可分性判据特征选择与提取的实质是要对原始特征空间进行优化,这就需要对优化的结果进行评价,在实际应用中经常采用的评价方法,是对分类系统的性能进行测试,最直接的测试指标当然是识别率,其它指标还有识别计算速度、存储容量等。本章讨论的评价方法目的在于找出对特征空间进行优化的具体算法。对特征空间进行优化的任务是求出一组对分类最有效的特征,所谓有效是指在特征维数减少到同等水平时,其分类性能达到最优。因此需要设计出定量分析方法,判断所得到的特征或所选取的特征维数是否对分类最有利,这种用以定量检验分类性能的准则称为类别可分离性判据。一般说来分类器最基本的性能评估是其分类的错误率,如果能用反映错误率大小的准则,在理论上是最合适的。但是正如在前述章节讨论中提到的,对错误率的计算是极其复杂的,以至于很难构筑直接基于错误率的判据。为此人们设法从另一些更直观的方法出发,设计出一些类别可分离性判据的准则,用来检验不同的特征组合对分类性能好坏的影响,进而导出特征选择与特征提取的方法。通常希望所构造的可分性判据满足下列要求:(1)与误判概率有单调关系。(2)当模式的特征独立时,判据有可加性,即J,(X,X2,",Xa)=ZJ,(X)k=l(3)判据具有距离的某些特性,即[J,>0,ijJ,=0,i=j[J,=Jj

第 6 章 特征提取与选择 模式识别的主要任务是设计分类器,将样本划分为相应的类别,获得好的分类性能。而 前面章节讨论的分类器设计方法,都是认为样本的特征已经确定,各类样本都分布在由该特 征所决定的空间内。因此分类器设计问题是一个使用什么方法,将已确定的特征空间合理划 分的问题。分类器设计方法固然重要,但样本的特征选择与提取也是模式识别系统的一个关 键的问题。好的特征可以使同类样本的分布更具加紧密,不同类别样本则在该特征空间中更 加分开,这就为分类器设计奠定了良好的基础。反之,如果不同类别的样本在该特征空间中 混杂在一起,再好的设计方法也无法提高分类器的准确性。本章要讨论的问题就是给定训练 样本集,如何设计特征空间的问题。 6.1 类别可分性判据 特征选择与提取的实质是要对原始特征空间进行优化,这就需要对优化的结果进行评 价,在实际应用中经常采用的评价方法,是对分类系统的性能进行测试,最直接的测试指标 当然是识别率,其它指标还有识别计算速度、存储容量等。本章讨论的评价方法目的在于找 出对特征空间进行优化的具体算法。 对特征空间进行优化的任务是求出一组对分类最有效的特征,所谓有效是指在特征维 数减少到同等水平时,其分类性能达到最优。因此需要设计出定量分析方法,判断所得到的 特征或所选取的特征维数是否对分类最有利,这种用以定量检验分类性能的准则称为类别可 分离性判据。 一般说来分类器最基本的性能评估是其分类的错误率,如果能用反映错误率大小的准 则,在理论上是最合适的。但是正如在前述章节讨论中提到的,对错误率的计算是极其复杂 的,以至于很难构筑直接基于错误率的判据。为此人们设法从另一些更直观的方法出发,设 计出一些类别可分离性判据的准则,用来检验不同的特征组合对分类性能好坏的影响,进而 导出特征选择与特征提取的方法。通常希望所构造的可分性判据满足下列要求: (1) 与误判概率有单调关系。 (2) 当模式的特征独立时,判据有可加性,即 1 2 1 ( , , , ) ( ) d ij d ij k k J X X X J X    (3) 判据具有距离的某些特性,即 0, 0, ij ij ij ji J i j J i j J J          

(4)对特征数目是单调不减的,即J,(Xi,X2,",Xa)≤J,(Xr,X2,"",Xa,Xa+)在实际应用,有些判据并不一定同时能满足上述四个条件,但并不影响其使用。6.2.基于距离的可分性判据基于距离的可分性判据的实质是Fisher准则的延伸,即同时考虑样本的类内聚集程度与类间的离散程度这两个因素。这种判据对特征空间优化的结果较好地体现类内密集、类间分离的目的,也就是说,一些不能体现类间分隔开的特征在对特征空间进行优化的过程中很可能被剔除了。基于距离度量在几何上具有直观性,因为一般情况下同类样本在特征空间呈聚类状态,即从总体上说同类样本由于具有共性,因此类内样本间距离应比类间样本间距离小。Fisher准则正是以使类间距离尽可能大同时又保持类内距离较小这一思想设计的。同样在特征选择与特征提取中也使用类似的思想,称为基于距离的可分性判据。为了度量类内、类间的距离,也可用另一种描述方法,即描述样本的离散程度的方法。在讨论Fisher准则时曾用过两个描述离散度的矩阵。一个是类间离散矩阵S,,即S,=(m-m2)(m-m)(6-1)另一个是类内离散度矩阵S,有(6-2)S=S,+S其中, S=Z(X-m)(X-m),i=1,2XeN以上式子是针对两类别情况的,如果推广至类情况,同时考虑各类的先验概率P不相等,则可将上列各式表示成S,=Zp(m-m)(m-m)(6-3)i=lS. =ZPE,[(X-m,)(X-m)"(6-4)i=l其中,m为所有样本的总均值向量,E,表示i类的期望符号。利用(6-3)与(6-4)式可以将基于距离的可分性判据表示如下几种形式。(1)特征向量间平均距离的判据J(X)= tr(Sw + S,)(6-5)其中,“tr”表示矩阵的迹。式(6-5)实际上是从计算特征向量间总平均距离的公式推导得到的,该式可写成

(4) 对特征数目是单调不减的,即 1 2 1 2 1 ( , , , ) ( , , , , ) ij d ij d d J X X X J X X X X   在实际应用,有些判据并不一定同时能满足上述四个条件,但并不影响其使用。 6.2.基于距离的可分性判据 基于距离的可分性判据的实质是 Fisher 准则的延伸,即同时考虑样本的类内聚集程度 与类间的离散程度这两个因素。这种判据对特征空间优化的结果较好地体现类内密集、类间 分离的目的,也就是说,一些不能体现类间分隔开的特征在对特征空间进行优化的过程中很 可能被剔除了。 基于距离度量在几何上具有直观性,因为一般情况下同类样本在特征空间呈聚类状态, 即从总体上说同类样本由于具有共性,因此类内样本间距离应比类间样本间距离小。Fisher 准则正是以使类间距离尽可能大同时又保持类内距离较小这一思想设计的。同样在特征选择 与特征提取中也使用类似的思想,称为基于距离的可分性判据。 为了度量类内、类间的距离,也可用另一种描述方法,即描述样本的离散程度的方法。 在讨论 Fisher 准则时曾用过两个描述离散度的矩阵。一个是类间离散矩阵 b S ,即  1 2 1 2   T b S m m m m    (6-1) 另一个是类内离散度矩阵 w S ,有 w 1 2 S S S   (6-2) 其中,    , 1,2 T w i i X S X m X m i       以上式子是针对两类别情况的,如果推广至 c 类情况,同时考虑各类的先验概率 Pi 不 相等,则可将上列各式表示成    1 c T b i i i i S P m m m m      (6-3)    1 c T w i i i i i S PE X m X m          (6-4) 其中,m 为所有样本的总均值向量, Ei 表示 i 类的期望符号。利用(6-3)与(6-4)式可以将基 于距离的可分性判据表示如下几种形式。 (1) 特征向量间平均距离的判据 1 ( ) tr( ) w b J X S S   (6-5) 其中,“ tr ”表示矩阵的迹。式(6-5)实际上是从计算特征向量间总平均距离的公式推导得 到的,该式可写成

8(x,x)Ja(X)= 1(6-6)22台nn,台台其中,P、P,分别表示各类的先验概率n,、n,分别是第i与j类的样本个数,s(xl),x(")表示第i类的第k个与j类第1个样本之间的距离度量,在欧氏距离情况下有8(x0,x()=(x()-x() (x) -X()(6-7)分别用m和m表示第i类样本的均值向量与总体样本的均值向量,有12xO(6-8)m.=n,=im=ZPm(6-9)1=1将式(6-8)和式(6-9)代入式(6-6),得P[12(x@ -m) (x@ -m,)+(m-m) (m,-m)Ja(X)=pl(6-10)nhi=l式(6-10)中右边括弧里的第一项为类内各特征向量之间的平方距离,第二项为第i类的均值向量与总体均值向量之羊的平方距离,第二项可表示为Zp(m-m)(m-m)=ZP(m,-m)(m,-m)(6-11)2台月i=l显然,利用式(6-10)与式(6-11)就可得到式(6-5)。需指出的是由(6-6)推导的各式是利用有限样本数据,因此得到的都是母体各量的估计值,而(6-5)式用的是母体的离散度矩阵。(2)类内类间距离的判据判据J.(X)是建立在计算特征向量的总平均距离基础上的一种距离度量,直观上我们希望变换后特征向量的类间离散度尽量大,类内离散度尽量小,因此还可以提出以下各种实用的判据。(6-12)J,(X)= tr(S-'S.)[Is,] J(X)=In(6-13)LIs,1]tr(S,)J(X) =(6-14)tr(S,)

  ( ) ( ) 1 1 1 1 1 1 ( ) , 2 j i n n c c i j d i j k l i j k l i j J X P P X X n n          (6-6) 其中,Pi 、Pj 分别表示各类的先验概率 i n 、 j n 分别是第 i 与 j 类的样本个数,   ( ) ( ) , i j X X k l  表示第 i 类的第 k 个与 j 类第 l 个样本之间的距离度量,在欧氏距离情况下有       ( ) ( ) ( ) ( ) ( ) ( ) , T i j i j i j X X X X X X k l k l k l     (6-7) 分别用 mi 和 m 表示第 i 类样本的均值向量与总体样本的均值向量,有 (i) 1 1 i n i k i k m X n    (6-8) 1 c i i i m Pm    (6-9) 将式(6-8)和式(6-9)代入式(6-6),得         (i) (i) 1 1 1 ( ) i c n T T d i k i k i i i i k i J X P X m X m m m m m   n               (6-10) 式(6-10)中右边括弧里的第一项为类内各特征向量之间的平方距离,第二项为第 i 类的 均值向量与总体均值向量之羊的平方距离,第二项可表示为         1 1 1 1 2 c c c T T i i i i j i j i j i i j P m m m m P P m m m m            (6-11) 显然,利用式(6-10)与式(6-11)就可得到式(6-5)。需指出的是由(6-6)推导的各式是利用有 限样本数据,因此得到的都是母体各量的估计值,而(6-5)式用的是母体的离散度矩阵。 (2) 类内类间距离的判据 判据 1 J X( ) 是建立在计算特征向量的总平均距离基础上的一种距离度量,直观上我们 希望变换后特征向量的类间离散度尽量大,类内离散度尽量小,因此还可以提出以下各种实 用的判据。 1 2 ( ) tr( ) w b J X S S   (6-12) 3 ( ) ln b w S J X S        (6-13) 4 tr(S ) ( ) tr(S ) b w J X  (6-14)

IS,+S,Js(X)=(6-15)Sw其中,表示是矩阵对应的行列式。由上述判据的构造可知,当类模内模式比较密集,类间模式比较分散时,此时所得判据值也较大,分类就更加容易。6.3按概率距离判据的特征提取方法上一节依据样本在特征空间的分布距离,建立了特征提取的判据。这种判据原则具有思路直观、计算简便的优点,其缺点是没有考虑各类样本的概率分布。因此当不同类样本中有部分在特征空间中交选分布时,简单地按距离划分,无法表明判据与错误概率之间的联系。基于概率分布的可分性判据则依据如下观察到的现象。如果我们不考虑各类的先验概率,或假设两类样本的先验概率相等,那末从两类条件概率分布可以看出,如果两类条件概率分布互不交迭,即对P(Xの)处都有P(Xの),如图6-1(a)所示,则这两类就完全可分:另一种极端情况是对所有X都有P(Xの)=P(Xの),如图6-1(b)所示,则两类就完全不可分。P(x/w)P(x/w.)P(x/ w2)(a)(b)图6-1两类样本的条件概率密度分布因此人们设计出与概率分布交迭程度有关的距离度量方法,这些距离J,有以下几个共同点:(1)J,是非负,即J,≥0(2)当两类完全不交选时J,达到其最大值(3)当两类分布密度相同时,J,=0这种函数的一般式可表示为J = Jg[p(X|), p(X|o), P, P2](6-16)下面讨论一些常用的概率距离度量。(1)Bhattacharya距离和Chermoff界限Bhattacharyya距离的定义为Js=-In J[p(X|)p(Xo,)]" dx(6-17)

5 ( ) w b w S S J X S   (6-15) 其中,  表示是矩阵对应的行列式。由上述判据的构造可知,当类模内模式比较密集,类 间模式比较分散时,此时所得判据值也较大,分类就更加容易。 6.3 按概率距离判据的特征提取方法 上一节依据样本在特征空间的分布距离,建立了特征提取的判据。这种判据原则具有 思路直观、计算简便的优点,其缺点是没有考虑各类样本的概率分布。因此当不同类样本中 有部分在特征空间中交迭分布时,简单地按距离划分,无法表明判据与错误概率之间的联系。 基于概率分布的可分性判据则依据如下观察到的现象。 如果我们不考虑各类的先验概率,或假设两类样本的先验概率相等,那末从两类条件 概率分布可以看出,如果两类条件概率分布互不交迭,即对 2 P X( )  处都有 1 P X( )  ,如 图 6-1(a) 所 示 , 则 这 两 类 就 完 全 可 分 ; 另 一 种 极 端 情 况 是 对 所 有 X 都 有 1 2 P X P X ( ) ( )    ,如图 6-1(b)所示,则两类就完全不可分。 P x w  | 1  P x w  | 2  P x w  | 1  (a) (b) 图 6-1 两类样本的条件概率密度分布 因此人们设计出与概率分布交迭程度有关的距离度量方法,这些距离 p J 有以下几个共 同点: (1) p J 是非负,即 0 p J  (2)当两类完全不交迭时 p J 达到其最大值 (3)当两类分布密度相同时, 0 p J  这种函数的一般式可表示为 1 1 1 2 J g p X p X p p      ( ), ( ), ,    (6-16) 下面讨论一些常用的概率距离度量。 (1) Bhattacharyya 距离和 Chernoff 界限 Bhattacharyya 距离的定义为 1/2 1 2 ln ( ) ( ) B J p X p X dX          (6-17)

由式(6-17)可以看出,当P(Xの)=P(Xの)对所有X值成立时JB=0,而当两类的分布完全不交选时JB为无穷大。Chernoff界限的定义为J=-In J[p'(X|)p-s(Xo2) dX(6-18)其中,S取[0,1]区间的一个参数,当S=0.5时式(6-18)即为式(6-17),因此JB是J的一个特例。(2)散度另一种常用的基于概率距离度量的判据是利用似然比或对数似然比。对两类问题,其对数似然比为I, =In P(Xla)(6-19)p(X|o,)如果对某个X,P(Xo)=P(Xの,),则1,=0,反之若两者差异越大,则1,的绝对值也大。式(6-19)只是对某一X值而言,为了对整个特征空间概率分布的差异程度做出评价,0类相对の,的可分性信息定义为1,=[;()]-[ p(X(a)n le) ax(6-20)p(X|o,)の,类相对の,的可分性信息定义为1,=[()]-[ p(X(0,)In (l) ax(6-21)p(X0,)N而总的平均可分信息则可表示成J=I,+,=J[p(X(a)-(X[)]in)ax(6-22)p(X0,)J,被称为散度,从其数学构造上来看,式中被积函数概率密度之差和概率密度之比能反映出两个类样本分布的重叠程度,同时被积函数中两因式永远同号,故其乘积非负。有关散度的具体含意将结合正态分布的例子说明。(3)正态分布时基于概率分布距离度量显然在一般情况下由于概率分布本身的复杂形式,以上这些基于概率分布的判据相当复杂。但当模式的概率分布具有某种特定参数形式,尤其是呈正态分布时,判据的表达式可以得到进一步简化。下面讨论两类别正态分布时散度判据的表达式。设两类的概率密度函数为

由式(6-17)可以看出,当 1 2 P X P X ( ) ( )    对所有 X 值成立时 0 B J  ,而当两 类的分布完全不交迭时 B J 为无穷大。 Chernoff 界限的定义为 1 1 2 ln ( ) ( ) s S C J p X p X dX          (6-18) 其中, S 取[0,1]区间的一个参数,当 S  0.5 时式(6-18)即为式(6-17),因此 B J 是 C J 的一 个特例。 (2) 散度 另一种常用的基于概率距离度量的判据是利用似然比或对数似然比。对两类问题,其对 数似然比为 ( ) ln ( ) i ij j p X l p X    (6-19) 如果对某个 X , ( ) ( ) P X P X   i j  ,则 0 ij l  ,反之若两者差异越大,则 ij l 的绝对值也 大。式(6-19)只是对某一 X 值而言,为了对整个特征空间概率分布的差异程度做出评价, i 类相对 j 的可分性信息定义为 ( ) (X) ( )ln ( ) i ij ij i j p X I E l p X dX p X            (6-20) j 类相对 i 的可分性信息定义为 ( ) (X) ( )ln ( ) j ji ji j i p X I E l p X dX p X            (6-21) 而总的平均可分信息则可表示成 ( ) ( ) ( ) ln ( ) i D ij ji i j j p X J I I p X p X dX p X              (6-22) D J 被称为散度,从其数学构造上来看,式中被积函数概率密度之差和概率密度之比能反映 出两个类样本分布的重叠程度,同时被积函数中两因式永远同号,故其乘积非负。有关散度 的具体含意将结合正态分布的例子说明。 (3) 正态分布时基于概率分布距离度量 显然在一般情况下由于概率分布本身的复杂形式,以上这些基于概率分布的判据相当复 杂。但当模式的概率分布具有某种特定参数形式,尤其是呈正态分布时,判据的表达式可以 得到进一步简化。下面讨论两类别正态分布时散度判据的表达式。 设两类的概率密度函数为

(2a)"/2, μexp[-(X-4)2(X-A)](6-23)p(X /0):1(X-μ)"z'(X-μ,))“(2元)"12,[ exp[-(6-24)p(X |0,)=两类样本的对数似然比为4(-(x-)+(-)(-4)(6-25)利用矩阵迹的性质ATB=tr(BA),其中A、B表示向量,式(6-25)可改写成,=→-[2(X-4)(X-4)]+[27(x-)(X-4,)](6-26)将其代入I.的计算公式,并化简得[((6-27)将式(6-27)代入式(6-22),得J=t[272,-272, -21]+t[(u,-μ,) (27 +27)(4-4,)](6-28)显然,当Z=2,=Z时,则J,=(u-μ,)'z'(μ.-μu.)(6-29)上式即为两个类类心Mahalanobis距离的平方。在正态分布时Bhattacharyya距离J,可表示成(μ-μ)B=(6-30)1[,,当2,=2,=2时-u,)'z-(u,-u)(6-31)它与散度J,的表达式只差一个常系数。6.4基于摘函数的可分性判据概率距离可分性判据是依据类条件概率分布定义的判据准则。由贝叶斯准则可知最佳分

1 /2 1/2 1 1 ( | ) exp[ ( ) ( )] (2 ) | | 2 T i i i i d i p X X X            (6-23) 1 /2 1/2 1 1 ( | ) exp[ ( ) ( )] (2 ) | | 2 T j j j j d j p X X X            (6-24) 两类样本的对数似然比为         1 1 1 1 1 ln 2 2 2 T T j ij i i i j j j i l X X X X                  (6-25) 利用矩阵迹的性质 tr( ) T T A B BA  ,其中 A 、 B 表示向量,式(6-25)可改写成       1 1 1 1 1 ln tr tr 2 2 2 T T j ij i i i j j j i l X X X X                            (6-26) 将其代入 ij I 的计算公式,并化简得      1 1 1 1 1 1 ln tr tr 2 2 2 T j ij i j i j i j i j i I                              (6-27) 将式(6-27)代入式(6-22),得      1 1 1 1 1 1 tr 2 tr 2 2 T D i j j i i j i j i j J I                                (6-28) 显然,当      i j 时,则     1 T D i j i j J          (6-29) 上式即为两个类类心 Mahalanobis 距离的平方。在正态分布时 Bhattacharyya 距离 B J 可 表示成       1/2 1 1 1 2 ln 8 2 2 i j T i j B i j i j i j J                           (6-30) 当      i j 时     1 1 8 T B i j i j J          (6-31) 它与散度 D J 的表达式只差一个常系数。 6.4 基于熵函数的可分性判据 概率距离可分性判据是依据类条件概率分布定义的判据准则。由贝叶斯准则可知最佳分

类器实际上是由后验概率决定的,因此这一节我们讨论基于后验概率分布的判据。如果对某些特征,各类后验概率都相等,即P(o|X)=!(6-32)C其中C为类别数,则样本的类别归属就无法确定,或者只能任意指定样本所属类别。此时误判率为P,=1-1_ C-1C(6-33)cC这也就是错误率最大的情况。考虑另一极端,假设能有一组特征使得P(oX)=1,且 P(,X)=0,ji(6-34)显然,此时样本X肯定划分为类别,而误判率为零。由此可看出,后验概率越集中,判断错误的概率就越小,反之后验概率分布越平缓,即接近均匀分布,则分类错误概率就越大,因此样本后验概率的集中程度可以作为类别可分性的一种判据,后验概率分布的集中程度可以用信息论中熵的进行定量描述。从特征提取角度来看,特征越具有不确定性,用该特征进行分类越困难。因此用具有最小不确定性的那些特征进行分类是最有利的,在信息论中用“摘”作为特征不确定性的度量如果已知样本的后验概率为P(のX),定义Shannon炳为H()=-Z P(o| X)log P(0| X)(6-35)isl另一常用的平方摘H(2=2P d|X(6-36)这两者都有摘函数的性质:(1)摘为正且对称,即函数式内项的次序可以变换不影响的值,即H.(P,P,.",P)=H,(P,P,."",P)=..=H,(P.,..,P)≥0上式中P=P(oX)。(2)如P(o|X)=1,且P(oX)=0(1≤j≤c,j+i),则H(P,P,,P)=0;(3)对任意的概率分布P(oX)≥0,以及P(oX)=1,则i=lH.(P,P,., P)≤H.因而这些函数都可用作各类别样本后验概率集中分布程度的定量指标,在函数取值较大的

类器实际上是由后验概率决定的,因此这一节我们讨论基于后验概率分布的判据。如果对某 些特征,各类后验概率都相等,即 1 ( ) P Xi c   (6-32) 其中 c 为类别数,则样本的类别归属就无法确定,或者只能任意指定样本所属类别。此 时误判率为 1 1 1 e c P c c     (6-33) 这也就是错误率最大的情况。 考虑另一极端,假设能有一组特征使得 ( ) 1 P X i  ,且 ( ) 0, P X j i  j    (6-34) 显然,此时样本 X 肯定划分为类别 i ,而误判率为零。由此可看出,后验概率越集中, 判断错误的概率就越小,反之后验概率分布越平缓,即接近均匀分布,则分类错误概率就越 大,因此样本后验概率的集中程度可以作为类别可分性的一种判据,后验概率分布的集中程 度可以用信息论中熵的进行定量描述。 从特征提取角度来看,特征越具有不确定性,用该特征进行分类越困难。因此用具有最 小不确定性的那些特征进行分类是最有利的,在信息论中用“熵”作为特征不确定性的度量, 如果已知样本的后验概率为 ( ) P X i ,定义 Shannon 熵为 (1) 2 1 ( ) log ( ) c c i i i H P X P X      (6-35) 另一常用的平方熵 (2) 2 1 2 1 ( ) c c i i H P X            (6-36) 这两者都有熵函数的性质: (1)熵为正且对称,即函数式内项的次序可以变换不影响熵的值,即 1 2 2 1 1 ( , , , ) ( , , , ) ( , , ) 0 H P P P H P P P H P P c c c c c c     上式中 ( ) P P X i i   。 (2)如 ( ) 1 P X i  ,且 ( ) 0 P X  j  (1 , )    j c j i ,则 1 2 ( , , , ) 0 H P P P c c  ; (3)对任意的概率分布 ( ) 0 P X i  ,以及 1 ( ) 1 c i i P X     ,则 1 2 1 1 1 ( , , , ) , , , H P P P H c c c c c c        因而这些函数都可用作各类别样本后验概率集中分布程度的定量指标,在熵函数取值较大的

特征空间里,不同样类别的样本交迭的程度较大,因此炳函数的期望值可以表征类别的分离程度,可用来作为提取特征的对类别可分性的度量指标。6.5基于Karhunen-Loeve变换的特征提取6.5.1Karhunen-Loeve变换前面几节介绍了几种类别可分性的判据,依据类别可分性判据可对样本进行特征提取把样本从原始的数据空间变换到特征空间,从而取得更优的分类性能。这节介绍的Karhunen-Loeve(K-L)变换是常用的一种特征提取方法,其思想是通过寻找一个特征空间,将样本从原始的数据空间投影到特征空间,找到维数较少的组合特征,从而达到降维的目的。由此可见,即K-L变换下的最优特征提取是和降维紧密联系的。假设样本原始特征空间是D维的,不失一般性,可以认为D为无限大,并设原样本向量可用一组正交变换基μ,表示,即X-Zc,Hj(6-37)Jsl现要求降维至d维,由于d<D,也就是说d+1维以上的成分在降维过程中被损失掉了。将保留下来的信息表示成X=ZCjj(6-38)则每个样本的损失可表示成X与X之差。K-L变换的目标是给定一个训练样本集,寻找一个正交变换使这种误差总体最小。这里强调的总体是指训练样本集中的所有样本,这是因为经K-L以后,训练样本集中的每个样本都有信息损失,而变换基的优劣是靠样本集的总体信息损失来衡量的。那么,如何衡量样本集的整体信息损失的多少呢?最常用的指标是均方误差最小,或称均方误差的期望值最小。用X表示X的近似值或估计量,希望在同样维数条件下,使向量X的估计量误差最小,也即所引起的均方误差为最小,可表示为=E[(x-x)(x-x)(6-39)满足&最小的μ,即为最佳的是正交变换的基。由于μ,还需要满足正交归一这个条件,因此这是一个求条件极值的问题,可以利用拉格朗日乘子法将条件数值转换成无条件极值的问题,然后再去求解。事实上,K-L变换的实质是任一样本X可以表示成一组正交基μ,的线性组合,设线性组合的系数为C,则对任一正交基μ,对应的C,值,可以通过X与μ,的点积来计算,即C,=μ,X(6-40)

特征空间里,不同样类别的样本交迭的程度较大,因此熵函数的期望值可以表征类别的分离 程度,可用来作为提取特征的对类别可分性的度量指标。 6.5 基于 Karhunen-Loeve 变换的特征提取 6.5.1 Karhunen-Loeve 变换 前面几节介绍了几种类别可分性的判据,依据类别可分性判据可对样本进行特征提取, 把样本从原始的数据空间变换到特征空间,从而取得更优的分类性能。这节介绍的 Karhunen-Loeve(K-L)变换是常用的一种特征提取方法,其思想是通过寻找一个特征空间, 将样本从原始的数据空间投影到特征空间,找到维数较少的组合特征,从而达到降维的目的。 由此可见,即 K-L 变换下的最优特征提取是和降维紧密联系的。假设样本原始特征空间 是 D 维的,不失一般性,可以认为 D 为无限大,并设原样本向量可用一组正交变换基  j 表 示,即 1 j j j X C      (6-37) 现要求降维至 d 维,由于 d D ,也就是说 d 1 维以上的成分在降维过程中被损失掉 了。将保留下来的信息表示成 1 ˆ d j j j X C     (6-38) 则每个样本的损失可表示成 X 与 X ˆ 之差。K-L 变换的目标是给定一个训练样本集,寻 找一个正交变换使这种误差总体最小。这里强调的总体是指训练样本集中的所有样本,这是 因为经 K-L 以后,训练样本集中的每个样本都有信息损失,而变换基的优劣是靠样本集的 总体信息损失来衡量的。 那么,如何衡量样本集的整体信息损失的多少呢?最常用的指标是均方误差最小,或称 均方误差的期望值最小。用 X ˆ 表示 X 的近似值或估计量,希望在同样维数条件下,使向量 X 的估计量误差最小,也即所引起的均方误差为最小,可表示为     ˆ ˆ T  E X X X X          (6-39) 满足  最小的  j 即为最佳的是正交变换的基。由于  j 还需要满足正交归一这个条件, 因此这是一个求条件极值的问题,可以利用拉格朗日乘子法将条件数值转换成无条件极值的 问题,然后再去求解。 事实上,K-L 变换的实质是任一样本 X 可以表示成一组正交基  j 的线性组合,设线性 组合的系数为 Cj ,则对任一正交基  j 对应的 Cj 值,可以通过 X 与  j 的点积来计算,即 T C X j j   (6-40)

如果要求获取一组系数C,,并将其表示成一个向量形式C=(C,C,,),则可以通过下式求得。AMCX=UX(6-41)Li这里U就是一个变换矩阵,其中每一行是某一个正交基向量的转置。由X计算C称为对X重构的信号表示成X=(X,X,,X),则的分解,反过来,也可以用C重构X,[x]ICX2C2X==U'C(6-42)=(M,2,", Ha):.[Xa]Ca显然,X与原向量X的一个近似,要使X与X的差异越小,则要用更多维数的正交基。将X-X=C,μ,代入(6-39),可得到>jed+7CHZCM-EZcCu,u=E(6-43)三FL j=d+1i=d+1Lj=d+li=d+-由于μ,(j=1,2,,80)是正交归一坐标系,有[1j=iuu=(6-44)0j+i所以有(6-45)-1系数C,可以利用正交坐标系的特性得到。如令某一基向量μ,与向量X作点积,则有ux=μECH(6-46)j=l利用(6-40)代入(6-45)得Vxx"E[XX6=E(6-47)j=d+1如令=E[XX"]],则有

如果要求获取一组系数 Cj ,并将其表示成一个向量形式  1 2 , ,  T C C C  ,则可以通 过下式求得。 1 2 T T T d C X UX                    (6-41) 这里 U 就是一个变换矩阵,其中每一行是某一个正交基向量的转置。由 X 计算 C 称为对 X 的分解,反过来,也可以用 C 重构 X ,重构的信号表示成  1 2  ˆ , , , T X X X X  d ,则   1 1 2 2 1 2 ˆ , , , T d d d X C X C X U C X C                                   (6-42) 显然, X ˆ 与原向量 X 的一个近似,要使 X ˆ 与 X 的差异越小,则要用更多维数的正交基。 将 1 ˆ j j j d X X C        代入(6-39),可得到 1 1 1 1 T T j j i i i j j i j d i d j d i d      E C C E C C                               (6-43) 由于  j ( j   1,2, , )是正交归一坐标系,有 1 0 T j i j i j i         (6-44) 所以有 2 1 j j d  E C            (6-45) 系数 Cj 可以利用正交坐标系的特性得到。如令某一基向量  j 与向量 X 作点积,则有 1 T T j j i i j    X C     (6-46) 利用(6-40) 代入(6-45)得 1 1 [ ] T T T T j j j j j d j d      E XX E XX                 (6-47) 如令 [ ] T   E XX ,则有

c=uu(6-48)j=d+1欲使该均方误差为最小,就变成在正交变换的条件下,使ε达最小的问题,引入拉格朗日乘子法,有g(u,)=,-[,-1](6-49)j=d+j=d+1对μ,求导数并令导数为零,得(y-,)μ,=0,j=d+1,d+2,..,0(6-50)。如将,按可见向量μ,应是矩阵的特征值入,的特征向量,而此时截断误差为8=J=d+I其大小顺序排列,即4≥≥.≥≥...则取前d项特征值对应的特征向量组成变换矩阵U,实施变换UX即得X的特征向量,用U和特征向量重构样本向量,可使向量的均方误差为最小,满足上述条件的变换就是K-L变换。6.5.2使用K-L变换进行特征提取上面讨论K-L变换时得出K-L坐标系是由E[XXT的特征值对应的特征向量产生,因而E[XX"]被称为K-L坐标系的产生矩阵,E[XX"]由于没有类别标签的均值向量μ通常没有实际意义。事实上,如果使用不同的向量作为产生矩阵,会得到不同的K-L坐标系,从而满足不同的分类要求。如果在产生矩阵中考虑类别的均值向量μ,可用样本数据的协方差矩阵(X-)(X-)代替E[XX"]。如训练样本集合中各样本的类别已知(X,),定义各类别协方差矩阵为Z,=E[(X-)(X-)」,则可以用类内离散矩阵S作为产生矩阵S,=乙PZ,,其意义是只按类内离散程度进行特征选取。下面讨论几种K-L变换的方法。1)利用类均值向量提取特征在分类问题中,如果样本在类内越密集,同时在类间越分散,则分类越容易。在讨论采用欧氏距离度量进行特征提取时,曾提到一些判据就是从这一设计思想出发的,因此在采用

1 T j j j d         (6-48) 欲使该均方误差  为最小,就变成在正交变换的条件下,使  达最小的问题,引入拉格 朗日乘子法,有 1 1 ( ) 1 T T j j j j j j j d j d g u                     (6-49) 对  j 求导数并令导数为零,得   0, 1, 2, , j j          I j d d (6-50) 可见向量  j 应是  矩阵的特征值  j 的特征向量,而此时截断误差为 1 j j d        。如将  j 按 其大小顺序排列,即    1 2    d 则取前 d 项特征值对应的特征向量组成变换矩阵 U ,实施变换 UX 即得 X 的特征向量,用 U 和特征向量重构样本向量,可使向量的均方误差为最小,满足上述条件的变换就是 K-L 变换。 6.5.2 使用 K-L 变换进行特征提取 上面讨论 K-L 变换时得出 K-L 坐标系是由 T E XX     的特征值对应的特征向量产生,因 而 T E XX     被称为 K-L 坐标系的产生矩阵, T E XX     由于没有类别标签的均值向量  通 常没有实际意义。事实上,如果使用不同的向量作为产生矩阵,会得到不同的 K-L 坐标系, 从而满足不同的分类要求。如果在产生矩阵中考虑类别的均值向量  ,可用样本数据的协 方差矩阵    T  X X     代替 T E XX     。如训练样本集合中各样本的类别已知 ( X i ),定义各类别协方差矩阵为    T     i i i E X X       ,则可以用类内离散 矩阵 w S 作为产生矩阵 w i i S P    , 其意义是只按类内离散程度进行特征选取。下面讨论 几种 K-L 变换的方法。 1) 利用类均值向量提取特征 在分类问题中,如果样本在类内越密集,同时在类间越分散,则分类越容易。在讨论采 用欧氏距离度量进行特征提取时,曾提到一些判据就是从这一设计思想出发的,因此在采用

共16页,试读已结束,阅读完整版请下载
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档