武汉理工大学:《模式识别》课程授课教案(讲义)第2章 贝叶斯决策理论

第2章贝叶斯决策理论从上一章可以看出,模式识别的基本问题是分类问题,即根据待识别对象所具有的属性特征,将其划归到某个类别中去。本章介绍模式识别理论中的贝叶斯决策理论。贝叶斯决策理论是统计模式识别中的一个基本方法,是一种将特征空间划分为子空间的方法,对模式分析和分类器的设计起指导作用。贝叶斯决策理论的核心是当给定具有特征向量X的待识别样本时,它属于某一类的可能性有多大?如果能确定属于各个类别的概率,分类决策就有了依据。例如由某一人脸图像构成的特征向量为X,X属于某甲的可能性为70%,属于某乙的可能性为30%。在没有任何样本信息的情况下,则应将图像判决为某甲,以使分类错误更小,这就是贝叶斯决策理论考虑分类问题的出发点。下面先介绍几个重要的概念。2.1几个重要的概念1.先验概率先验概率在分类方法中有着重要的作用,它的函数形式及主要参数或者是已知的,或者是可通过大量抽样实验估计出来。若用の,和の,分别表示为两个类别,P(の)和P(の,)表示各自的先验概率,此时满足P(0)+P(0,)=1推广到℃类问题中,の,の2………表示℃个类别,各自的先验概率用P(),P),,P()表示,则满足P(o)+P(0,)+.....+P(0)=1在实际的模式识别系统中,有时可以用先验概率作为分类决策的依据。如:有一个装了双色球的盒子,其中红色球占80%,蓝色球占20%,如果用の代表红色球,の,代表蓝色球,则P(の)=0.8,P(の,)=0.2,现从中任取一个球,若用先验概率对球的颜色做出预判,较合理的判决为红色球。先验概率一般不作为判决的唯一依据,但当先验概率相当大时,它也能成为分类判决的主要考虑因素。2.类(条件)概率密度它是指在某种确定类别条件下,模式样本X出现的概率密度分布函数,常用p(Xの,)ie1,2...",c)来表示。在本书中,我们采用p(X|の)表示条件概率密度函数,P(X|の)表示其对应的条件概率。P(*#)是条件概率的通用符号,在"后边出现的#为条件,之前的*为某个事件,即在某条件#下出现某个事件*的概率,如P(1X)是表示在X出现条件下,样本为の类的概率
第 2 章 贝叶斯决策理论 从上一章可以看出,模式识别的基本问题是分类问题,即根据待识别对象所具有的属性 特征,将其划归到某个类别中去。本章介绍模式识别理论中的贝叶斯决策理论。贝叶斯决策 理论是统计模式识别中的一个基本方法,是一种将特征空间划分为子空间的方法,对模式分 析和分类器的设计起指导作用。贝叶斯决策理论的核心是当给定具有特征向量 X 的待识别 样本时,它属于某一类的可能性有多大?如果能确定属于各个类别的概率,分类决策就有了 依据。例如由某一人脸图像构成的特征向量为 X,X 属于某甲的可能性为 70%,属于某乙的 可能性为 30%。在没有任何样本信息的情况下,则应将图像判决为某甲,以使分类错误更 小,这就是贝叶斯决策理论考虑分类问题的出发点。下面先介绍几个重要的概念。 2.1 几个重要的概念 1. 先验概率 先验概率在分类方法中有着重要的作用,它的函数形式及主要参数或者是已知的,或者 是可通过大量抽样实验估计出来。 若用 1 和 2 分别表示为两个类别, 1 P( ) 和 2 P( ) 表示各自的先验概率,此时满足 1 2 P P ( ) ( ) 1 推 广 到 c 类问题中, 1 2 , , c 表 示 c 个类别, 各 自 的 先 验 概 率 用 1 2 ( ), ( ), , ( ) P P P c 表示,则满足 1 2 ( ) ( ) ( ) 1 P P P c 在实际的模式识别系统中,有时可以用先验概率作为分类决策的依据。如:有一个装了 双色球的盒子,其中红色球占 80%,蓝色球占 20%,如果用 1 代表红色球,2 代表蓝色 球,则 1 P( ) 0.8 , 2 P( ) 0.2 ,现从中任取一个球,若用先验概率对球的颜色做出预 判,较合理的判决为红色球。先验概率一般不作为判决的唯一依据,但当先验概率相当大时, 它也能成为分类判决的主要考虑因素。 2.类(条件)概率密度 它是指在某种确定类别条件下,模式样本 X 出现的概率密度分布函数,常用 ( | )( 1,2, , ) i p X i c 来表示。在本书中,我们采用 ( | )i p X 表示条件概率密度函数, ( | ) P X i 表示其对应的条件概率。 P (*|#)是条件概率的通用符号,在“|”后边出现的#为条 件,之前的*为某个事件,即在某条件#下出现某个事件*的概率,如 ( | ) P X k 是表示在 X 出现条件下,样本为 k 类的概率

3.后验概率它是在某个具体的模式样本X条件下,某种类别出现的概率,常以P(,|X)i=1,2,,c)表示。后验概率可以根据贝叶斯公式(2-1)计算出来并直接用作分类判决的依据。P(o)X)= p(XI0)P(α)p(X)(2-1)其中:p(X)= Z p(X[0,)P(0,)(2-2)1=l先验概率是指(i=1,2,...,c)出现的可能性,不考虑其它任何条件。类条件概率密度函数p(X|の)是指の,条件下在一个连续的函数空间出现X的概率密度,也就是第の,类样本的特征X是如何分布的。一个事物在某条件下出现的概率P(*#)与该事件在不带任何条件下出现的概率(写成P(*)是不相同的。例如通过高血压患者家系调查发现,双亲血压正常者其子女患高血压的概率仅为3%,父母均患有高血压者,其子女患高血压概率高达45%,那么父母均患有高血压是指一种条件(#),在这种家族病史的条件下,子女患高血压的(*)的概率就要大得多。2.2几种常用的决策规则针对具体对象,设计者从不同角度考虑,会采用不同的决策准则,从而对决策结果会产生不同的影响。其中基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策是最基本的两种方法,下面分别加以讨论。问题的描述:已知总共有c类样本の(i=1,2....,c),其先验概率为P(の),条件概率密度函数为p(Xの),样本分布在n维特征空间,则对于待识别样本,如何确定其所属类别?由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的特征向量为X,而在c类中又有不止一类可能呈现这一X值,这种可能性可用P(の,X)(i=12,.....,c)表示。如何做出合理的判决就是贝叶斯决策理论所要讨论的问题。2.2.1基于最小错误率的贝叶斯决策当已知类别出现的先验概率P(の)和每个类中的样本分布的类条件概率密度p(X|o),可以求得一个待分类样本属于每类的后验概率P(の,/X),i=1,2,..",c。将其划归到后验概率最大的那一类中,这种分类器称为最小错误率贝叶斯分类器,其分类决策准则可表示为:1.两类情况
3. 后验概率 它 是 在 某 个 具 体 的 模 式 样 本 X 条 件 下 , 某 种 类 别 出 现 的 概 率 , 常 以 ( | )( 1,2, , ) P X i c i 表示。后验概率可以根据贝叶斯公式(2-1)计算出来并直接用作 分类判决的依据。 (2-1) 其中: 1 ( ) ( ) ( ) c i i i p X p X P (2-2) 先验概率是指 ( 1,2, , ) i i c 出现的可能性,不考虑其它任何条件。类条件概率密度 函数 ( | )i p X 是指 i 条件下在一个连续的函数空间出现 X 的概率密度,也就是第 i 类样 本的特征 X 是如何分布的。 一个事物在某条件下出现的概率 P (*|#)与该事件在不带任何条件下出现的概率(写成 P (*))是不相同的。例如通过高血压患者家系调查发现,双亲血压正常者其子女患高血压的 概率仅为 3%,父母均患有高血压者,其子女患高血压概率高达 45%,那么父母均患有高血 压是指一种条件(#),在这种家族病史的条件下,子女患高血压的(*)的概率就要大得多。 2.2 几种常用的决策规则 针对具体对象,设计者从不同角度考虑,会采用不同的决策准则,从而对决策结果会产 生不同的影响。其中基于最小错误率的贝叶斯决策与基于最小风险的贝叶斯决策是最基本的 两种方法,下面分别加以讨论。 问题的描述:已知总共有 c 类样本 ( 1,2, , ) i i c ,其先验概率为 ( ) P i ,条件概率 密度函数为 ( | )i p X ,样本分布在 n 维特征空间,则对于待识别样本,如何确定其所属类 别?由于属于不同类的待识别对象存在着呈现相同观察值的可能,即所观察到的某一样本的 特征向量为 X,而在 c 类中又有不止一类可能呈现这一 X 值,这种可能性可用 ( | )( 1,2, , ) P X i c i 表示。如何做出合理的判决就是贝叶斯决策理论所要讨论的问 题。 2.2.1 基于最小错误率的贝叶斯决策 当已知类别出现的先验概率 ( ) P i 和每个类中的样本分布的类条件概率密度 ( | )i p X ,可以求得一个待分类样本属于每类的后验概率 ( | ), =1,2, , P X i c i 。将其 划归到后验概率最大的那一类中,这种分类器称为最小错误率贝叶斯分类器,其分类决策准 则可表示为: 1.两类情况 | | i i i p P P p X X X

若P(/X)>P(のX),则XEの类(2-3)若P(o/X)>P(αX),则X E0,类2.多类情况若 P(o,/X)=max[P(o,IX)),j=1,2,.",c 则X e0,类(2-4)由(2-1),已知待识别样本X后,可以通过先验概率P(の.)和条件概率密度函数p(Xの),得到样本X分属各类别的后验概率,显然这个概率值可以作为X类别归属的依据。该判别依据可以有以下几种等价形式:观察Bayes公式(2-1),分母与i无关,即与分类无关,故分类规则又可表示为若 p(X[o,)P(o,)=max(p(X/o,)P(o,) j=1,2,,c, 则XE,类 (2-5)对两类问题,(2-5)式相当于(2-6),XeO[p(X/)P()>p(X/0)P(0),[p(X /0)P(0)> p(X 0)P(0), XEO公式(2-6)可改写为[o(2-7)4(N)= P(Xla)>P(.)Xp(X /,)ln P(o,)In/2(X)=In p(X [0 ,)-In p(X[02)Xe(2-8)<In P(o)[o2(2-5),(2-7),(2-8)都是贝叶斯决策规则的等价形式。可以发现,上述分类决策规则实为“最大后验概率分类器”,易知其分类错误的概率为P(e)= p(e,X)dX =" p(e| X)p(X)dX而p(e| X)=Zp(o, / X)-max p(o, I X)e显然,当p(elX)取得了最小值时,P(e)也取得了最小值,“最大后验概率分类器”与“最小错误率分类器”是等价的。对于最小错误率贝叶斯分类器,其分类决策规则也同时确定了分类决策边界,但是,其分类决策边界不一定是线性的,也不一定是连续的。图2-1为基于最小错误率分类判决的示意图
1 2 1 2 1 2 ( ) ( ) , ( ) ( ) , P X P X X P X P X X 若 则 类 若 则 类 (2-3) 2.多类情况 (2-4) 由(2-1),已知待识别样本 X 后,可以通过先验概率 ( ) P i 和条件概率密度函数 ( | )i p X ,得到样本 X 分属各类别的后验概率,显然这个概率值可以作为 X 类别归属的依 据。该判别依据可以有以下几种等价形式: 观察 Bayes 公式(2-1),分母与 i 无关,即与分类无关,故分类规则又可表示为 (2-5) 对两类问题,(2-5)式相当于 (2-6) 公式(2-6)可改写为 (2-7) 统计学中称 l12(X)为似然比, 为似然比阈值。 对(2-7)式取自然对数,有 2 1 12 1 2 1 2 ln ( ) ln ( ) ln ( | ) ln ( | ) , ln ( ) P l X p X p X X P (2-8) (2-5),(2-7),(2-8)都是贝叶斯决策规则的等价形式。可以发现,上述分类决策规则实为“最 大后验概率分类器”,易知其分类错误的概率为 而 显然,当 p e X ( | ) 取得了最小值时, Pe( ) 也取得了最小值,“最大后验概率分类器” 与“最小错误率分类器”是等价的。 对于最小错误率贝叶斯分类器,其分类决策规则也同时确定了分类决策边界,但是,其 分类决策边界不一定是线性的,也不一定是连续的。图 2-1 为基于最小错误率分类判决的示 意图。 若 P X P X j c X ( | ) max ( | ) , 1,2, , i j i 则 类 若 p P p P j c ( | ) max ( | ) ( ) 1,2, , , X X X i i j j i 则 类 1 1 2 2 1 2 2 1 1 2 ( | ) ( | ) ( ), ( | ) ( | ) ( ) p P p P p P p P , X X X X X X 1 2 1 12 2 1 2 ( | ) ( ) ( ) , ( | ) ( ) p X P l X X p X P 2 1 P P ( ) / ( ) P e p e X dX p e X p X dX ( ) ( , ) ( | ) ( ) 1 1 ( | ) ( | ) max ( | ) c i i i c i p e X p X p X

p(Xo)P(o)p(X|0,)P(0,)p(Xq)dX621 =2 =p(Xo,)dX2228, P(0,) e,P(o)2.21图2-1基于最小错误率的贝叶斯决策2.2.2最小风险判决规则最小错误率判决规则没有考虑错误判决带来的“风险”,或者说没有考虑某种判决带来的损失。同一问题中,不同的判决有不同的风险,例如判断细胞是否为癌细胞,可能有两种错误判决:①正常细胞错判为癌细胞:②癌细胞错判为正常细胞。但两种错误带来的风险并不相同。在①中,会给健康人带来不必要的精神负担;在②中,会使患者失去进一步检查、治疗的机会,造成严重后果。显然,第②种错误判决的风险大于第①种。正是由于有判决风险的存在,仅考虑最小错误进行判决是不充分的,还必须考虑判决带来的风险,因此引入最小风险判决规则。事实上,最小风险判决规则也是一种Bayes分类方法。判决风险也可以理解为由判决而付出的代价,即使在做出正确判决的情况下,也会付出一定的代价,也会有损失。假定有c类问题,用j=1,2·,c)表示类别,用ai=1,2a)表示可以做出的判决。实际应用中,判决数a和类别数c可能相等:也可能不等,即允许除c类的c个决策之外,可以采用其它决策,如“拒绝”决策,此时α=C+1。对于给定的模式X,令L(α,lo)表示Xの,而判决为α;的风险。若已做出判决αi,对c个不同类别の,,有c个不同的L(α,1の)。L(α,lの)的c个离散值随类型的性质变化,具有很大的随机性,可看成是随机变量。另外,由于判决数目有α个,这样对于不同的判决和不同类别就有一个α×c维风险矩阵,如表2-1所示。表2-1风险矩阵类型0.002判决L(α, /o)L(α, /o,)L(α, o)α1L(α, /o)L(α, /02)L(α,/o)α2........................L(α.lo)L(α, lo)...L(α.lo)αa
1 x 2 12 1 p X d X ( ) 1 21 2 p X d X ( ) 1 1 p X P ( ) ( ) 2 2 p X P ( ) ( ) 12 1 P( ) 21 2 P( ) 2 图 2-1 基于最小错误率的贝叶斯决策 2.2.2 最小风险判决规则 最小错误率判决规则没有考虑错误判决带来的“风险”,或者说没有考虑某种判决带来 的损失。同一问题中,不同的判决有不同的风险,例如判断细胞是否为癌细胞,可能有两种 错误判决:① 正常细胞错判为癌细胞;② 癌细胞错判为正常细胞。但两种错误带来的风险 并不相同。在①中,会给健康人带来不必要的精神负担;在②中,会使患者失去进一步检查、 治疗的机会,造成严重后果。显然,第②种错误判决的风险大于第①种。 正是由于有判决风险的存在,仅考虑最小错误进行判决是不充分的,还必须考虑判决带 来的风险,因此引入最小风险判决规则。事实上,最小风险判决规则也是一种 Bayes 分类方 法。判决风险也可以理解为由判决而付出的代价,即使在做出正确判决的情况下,也会付出 一定的代价,也会有损失。 假定有 c 类问题,用 ( 1,2, , ) j j c 表示类别,用 ( 1, 2, , ) i a i a 表示可以做 出的判决。实际应用中,判决数 a 和类别数 c 可能相等;也可能不等,即允许除 c 类的 c 个 决策之外,可以采用其它决策,如“拒绝”决策,此时 c 1。 对于给定的模式 X,令 ( | ) L i j 表示 X j 而判决为 i 的风险。若已做出判决 i , 对 c 个不同类别 j ,有 c 个不同的 ( | ) L i j 。 ( | ) L i j 的 c 个离散值随类型的性质变化,具有很大的随机性,可看成是随机变量。 另外,由于判决数目有 个,这样对于不同的判决和不同类别就有一个 c 维风险矩阵, 如表 2-1 所示。 表 2-1 风险矩阵 类型 判决 1 2 . c 1 1 1 L( | ) 1 2 L( | ) . 1 ( | ) L c 2 2 1 L( | ) 2 2 L( | ) . 2 (|) L c . a 1 ( | ) L a 2 1 L( | ) . ( | ) L a c

假定某样本X的后验概率P(,X)已经确定,则有:P(oIX)+P(o,/X)+....+P(o./X)=1, j=1,2,...,c, 且P(o,| ,对于每一种判决αi,可求出随机变量L(α,lの)的条件平均风险,也叫“条件平均损失”:R(α, / X)= E[L(α, |o,)]=L(α, Io,)- P(0, /X) i= 1,2,...,a (2-11)j=l最小风险判决规则就是把样本X归属于“条件平均风险最小”的那一种判决。也就是(2-12)若R(α,/X)=,min(R(α/X)),则XE0,-实施最小风险判决规则的步骤如下:(1)给定样本X,计算各类后验概率P(の,IX),j=1,2,,c。(2)在已知风险矩阵的条件下,按照(2-11)式求各种判决的条件平均风险R(α,|X), i=1,2,......,a.(3)按照(2-12)式,比较各种判决的条件平均风险,把样本X归属于条件平均风险最小的那一种判决。上面分析了两种决策规则,下面讨论它们之间的关系。当决策风险L(α,の)为0-1函数时,有oi=jL(α, /o,)(2-13)11 i+j即做出正确判决时损失为0,错误判决损失为1,且判决数目与类型数目相等。再令[1,i=],代L(α,[o,)=1-,,其中8,=代入式(2-11),有[0,itjR(α, 0)=ZL(α, [0,) P(0, [X)1=1Z(1-0,) P(o, Ix) =P(0, IX)-8, ·P(o, / X)j=li=l=1-P(0, /x)结果代入式(2-12)中,得到(2-14)若P(o,/X)=max(P(o/X)),则XEの,这就是最小错误率判决规则。由此可见,当决策风险L(α,|の)为0一1损失函数时,最小风险判决规则即为最小错误率判决规则。换另一句话说,就是最小错误率判决规则是最小风险判决规则的一个特例。2.2.3最大似然比判决规则类条件概率密度函数p(X|の)又称为“似然函数”,两个类条件概率密度之比称为“似
假定某样本 X 的后验概率 ( | ) P X j 已经确定,则有: 1 2 ( | ) ( | ) ( | ) 1, 1,2, , P X P X P X j c c ,且 ( | ) 0 P X j , 对于每一种判决 i ,可求出随机变量 ( | ) L i i 的条件平均风险,也叫“条件平均损失”: 1 ( | ) [ ( | )] ( | ) ( | ) c i i j i j j j R X E L L P X i 1,2, ,a (2-11) 最小风险判决规则就是把样本 X 归属于“条件平均风险最小”的那一种判决。也就是 若 1,2, , ( | ) min { ( | )} i k k a R X R X ,则 X i (2-12) 实施最小风险判决规则的步骤如下: (1) 给定样本 X ,计算各类后验概率 ( | ) P X j , j 1,2, ,c 。 (2) 在已知风险矩阵的条件下,按照(2-11)式求各种判决的条件平均风险 ( | ) R X i ,i 1,2, ,a 。 (3) 按照(2-12)式,比较各种判决的条件平均风险,把样本 X 归属于条件平均风 险最小的那一种判决。 上面分析了两种决策规则,下面讨论它们之间的关系。当决策风险 ( | ) L i j 为 0-1 函数时,有 0 ( | ) 1 i j i j L i j (2-13) 即做出正确判决时损失为 0,错误判决损失为 1,且判决数目与类型数目相等。再令 ( | ) 1 L i j ij ,其中 1, 0, ij i j i j ,代入式(2-11),有 1 ( | ) ( | ) ( | ) c i j i j j i R L P X 1 (1 ) ( | ) c ij j i P x 1 1 ( | ) ( | ) c c j ij j i j P X P X 1 ( | ) P x i 结果代入式(2-12)中,得到 若 1,2, , ( | ) max { ( | )} i k k c P X P X ,则 X i (2-14) 这就是最小错误率判决规则。由此可见,当决策风险 ( | ) L i j 为 0-1 损失函数时,最小 风险判决规则即为最小错误率判决规则。换另一句话说,就是最小错误率判决规则是最小风 险判决规则的一个特例。 2.2.3 最大似然比判决规则 类条件概率密度函数 ( | )i p X 又称为“似然函数”,两个类条件概率密度之比称为“似

然比函数”。可定义为p(X /o,),(x)= L(2-15)i,j=1,2,...,c,且i+jp(X /o)最大似然比判决规则可描述为:类型の,分别与其它类型,j=1,2,,c,j≠i)的似然比均大于相应的门限值,则样本Xeの。事实上,最大似然比判决规则也是一种Bayes分类方法。(1)由最小错误率判决规则引出最大似然比判决规则下面以二分类问题为例,借助最小错误率判决规则引出最大似然比判决规则,若XEの,由式(2-6)知最小错误率判决规则为:p(X /)- P(0)>p(X /0,)- P(02)两边同时除以p(X/の)P(の)有p(X /o,)P(o,)p(X [0,)P(o)类别,与0,的似然比为:42(X)=(X)p(X [α,)则判决门限为P(o,)0:(2-16)P(o)当先验概率已知时,可求得2。所以“最小错误率判决规则”就变为[12(X)>012XEO(2-17)1(X)[L(α, /,)-L(α2 /0,)]P(0, /X)即P( /X)、L(α, /)-L(α, /)P(o, /X) L(α, /o)-L(α, /o)又由Bayes公式P(o /X) p(X |)-P(o)p(0, /X)p(X [0,)-P(0,)得p(X /o)L(α, /o,)-L(α, /o,) P(o,)(2-18)p(X [0,)L(α /o)-L(α, /o) P()即12(X)>0/2式中
然比函数”。可定义为 ( | ) ( ) ( | ) i ij j p X l x p X i, j 1,2, ,c ,且 i j (2-15) 最大似然比判决规则可描述为:类型 i 分别与其它类型 ( 1,2, , , ) j j c j i 的似 然比均大于相应的门限值 ij ,则样本 X i 。事实上,最大似然比判决规则也是一种 Bayes 分类方法。 (1)由最小错误率判决规则引出最大似然比判决规则 下面以二分类问题为例,借助最小错误率判决规则引出最大似然比判决规则,若 X 1,由式(2-6)知最小错误率判决规则为: 1 1 2 2 p X P p X P ( | ) ( ) ( | ) ( ) 两边同时除以 2 1 p X P ( | ) ( ) 有 1 2 2 1 ( | ) ( ) ( | ) ( ) p X P p X P 类别 1 与 2 的似然比为: 1 12 2 ( | ) ( ) ( | ) p X l X p X 则判决门限为 2 12 1 ( ) ( ) P P (2-16) 当先验概率已知时,可求得 12 。所以“最小错误率判决规则”就变为 12 12 1 12 12 2 12 12 1 1 ( ) , ( ) , ( ) , l X X l X X l X X X 或 (2-17) (2)由最小风险判决规则引出最大似然比判决规则 也可由最小风险判决规则引出最大似然比判决规则,同样以二分类问题为例,若模式 X 1,根据最小风险判决规则,则有 1 1 2 2 R X R X ( | ) ( | ) 考虑到 2 1 ( | ) ( | ) ( | ) i i i j j j R X L p X ,有 2 1 1 1 1 1 2 2 2 2 [ ( | ) ( | )] ( | ) [ ( | ) ( | )] ( | ) L L P X L L P X 即 1 1 2 2 2 2 2 1 1 1 ( | ) ( | ) ( | ) ( | ) ( | ) ( | ) P X L L P X L L 又由 Bayes 公式 1 1 1 2 2 2 ( | ) ( | ) ( ) ( | ) ( | ) ( ) P X p X P p X p X P 得 1 1 2 2 2 2 2 2 1 1 1 1 ( | ) ( | ) ( | ) ( ) ( | ) ( | ) ( | ) ( ) p X L L P p X L L P (2-18) 即 12 12 l X( ) 式中

L(α, /0,)-L(α, /0,). P(0,)(2-19)0/2=-L(α, /)-L(α,/) P()为判决门限。从以上分析可以看出:最小风险判决引出的最大似然比判决与最小错误率判决引出的最大似然比判决的公式相同,只是判决门限θ,的计算公式不同。最小错误率判决门限只考虑了样本类别的先验概率,而最小风险判决门限在考虑先验概率的同时,还考虑了风险对决策的影响。注意到式(2-19)中的损失函数为0-1函数时,即L(α|の)=0,L(α,/の,)=1,L(α,|の)=1,L(α,|の,)=0时,则式(2-18)退化为式(2-16)。这也同样验证了,在风险函数为0一1损失函数情况下,最小风险判决退化为最小错误率判决。将上述讨论进一步推广,可得多类情形下的似然比判决规则,如果有の,の2………,。c个类别,则由最小错误率判决规则导出若I(X)>,,则XE0(2-20)P(o,)(2-21)其中,,=P()由最小风险判决规则导出[L(α,,)-L(α,0,)]P(o)(2-22)0,=7[L(α, I0,)-L(α, /0,)]- P(0,)同样在0-1损失函数的情况下,(2-22)退化为(2-21)。1由于似然函数满足1,(X)=所以在c类问题中,若有一个の满足(2-20)式,1,(X)则不可能再有另外的类别の,(ij)满足式(2-20)式。2.2.4Neyman-Pearsen判决规则在两分类问题中,贝叶斯判决规则的基本思想是根据类别的先验概率和类条件概率将样本的特征空间R划分成两个子区域R和R。这时存在两种错误,一种是当样本X应属の2时,判决为の:另一种是当样本X应属の,时,判决为の。两种错误的概率分别为:P(e)=J,p(XIo)dX,P(e)=J,p(XIo,)dX,总的错误之和 P(e)为(2-23)P(e)= P(o,)·P(e) + P(o)·P(e)最小错误率Bayes决策是使P(e)为最小。从式(2-23)可知,在最小错误判决准则下,需要知道各类的先验概率,在实际应用中,有时并不知道先验概率,仅知道类条件概率密度或者是先验概率保持不变,在这种情况下,可以使用聂曼一皮尔逊(Neyman一Pearson)判决规则,来确定判决门限。图2-2为二分类问题中两类的类条件概率密度曲线图,从图中可以看出,如果判决门限为t,可能发生的分类错误与阴影区面积P(e)和P(e)成正比。聂曼一皮尔逊判决规则的基
1 2 2 2 2 12 2 1 1 1 1 ( | ) ( | ) ( ) ( | ) ( | ) ( ) L L P L L P (2-19) 为判决门限。 从以上分析可以看出:最小风险判决引出的最大似然比判决与最小错误率判决引出的最 大似然比判决的公式相同,只是判决门限 12 的计算公式不同。最小错误率判决门限只考虑 了样本类别的先验概率,而最小风险判决门限在考虑先验概率的同时,还考虑了风险对决策 的影响。 注意到式(2-19)中的损失函数为 0-1 函数时,即 1 1 L( | ) 0 , 1 2 L( | ) 1 , 2 1 L( | ) 1 , 2 2 L( | ) 0 时,则式(2-18)退化为式(2-16)。这也同样验证了,在风险 函数为 0-1 损失函数情况下,最小风险判决退化为最小错误率判决。 将上述讨论进一步推广,可得多类情形下的似然比判决规则,如果有 1 2 , , , c c 个类别,则由最小错误率判决规则导出 若 ( ) ij ij l X ,则 X i (2-20) 其中, ( ) ( ) j ij i P P (2-21) 由最小风险判决规则导出 [ ( | ) ( | )] ( ) [ ( | ) ( | )] ( ) i j i j j ij j i i i i L L P L L P (2-22) 同样在 0-1 损失函数的情况下,(2-22)退化为(2-21)。 由于似然函数满足 1 ( ) ( ) ij ij l X l X ,所以在 c 类问题中,若有一个 i 满足(2-20)式, 则不可能再有另外的类别 ( ) j i j 满足式(2-20)式。 2.2.4 Neyman-Pearsen 判决规则 在两分类问题中,贝叶斯判决规则的基本思想是根据类别的先验概率和类条件概率将样 本的特征空间 R 划分成两个子区域 R1 和 R2 。这时存在两种错误,一种是当样本 X 应属 2 时,判决为 1 ;另一种是当样本 X 应属 1 时,判决为 2 。两种错误的概率分别为: 2 1 1 ( ) ( | ) R P e p X dX , 1 2 2 ( ) ( | ) R P e p X dX ,总的错误之和 P(e) 为 Pe( )= 2 2 P P e ( ) ( ) + 1 1 P P e ( ) ( ) (2-23) 最小错误率 Bayes 决策是使 P(e) 为最小。 从式(2-23)可知,在最小错误判决准则下,需要知道各类的先验概率,在实际应用中, 有时并不知道先验概率,仅知道类条件概率密度或者是先验概率保持不变,在这种情况下, 可以使用聂曼—皮尔逊(Neyman—Pearson)判决规则,来确定判决门限。 图 2-2 为二分类问题中两类的类条件概率密度曲线图,从图中可以看出,如果判决门限 为 t ,可能发生的分类错误与阴影区面积 1P e( ) 和 2 P e( ) 成正比。聂曼—皮尔逊判决规则的基

本思想是:如果一种错误比另一种错误更为重要,则在保持较重要错误率不变的条件下,使另一种错误率最小。聂曼一皮尔逊判决规则有重要的实际意义。例如,在细胞检验中,由于把异常细胞错判为正常细胞的带来的风险较大,这时可以在这种错判的错误率为某一常数的约束下,使正常细胞错判为异常细胞的错误率尽可能小,以此为原则来选择判决门限t。Prl0,)p(x[o)p(x10,)P(e)P(e)图2-2两类的类概率密度曲线从图2-2可以看出:812 = P(e)= (.p(X |o)dx(2-24)621 = P(e)= J, p(X [0, )dx(2-25)假定6,保持不变,为某个给定的正数,令:(2-26)=812+821为了使62最小化,就要通过适当地选择某个正数μ使最小。82 =1-J, p(X[0)dx(2-27)821 =1- J,p(X[0,)dX(2-28)把(2-27)式和(2-25)式代入(2-26)式,得到(2-29) =1+[,[μp(X [o,)-p(X|o)]dX把(2-28)式和(2-24)式代入(2-26)式,得到(2-30)[p(X /o,)-μp(X/,)]dxg=μ+为了使6最小化,上两式中的被积函数最好为负数,从而得到聂曼一皮尔逊判决规则为若 P(X/o)>μ,则XeO,p(X|o,)(2-31)若 P(X[α)则XEO<up(X /o,)从式(2-31)可以看出,聂曼一皮尔逊判决规则归结为寻找判决阈值μ,显然μ是X的函数,根据上式,要求μ以(X)为(X) = P(X[0)(2-32)p(X [0,)为了最后确定判决阅值,利用给定的正数621,由(2-25)式,并参考图2-2,得到p(X /o, )dx(2-33)621式中μ-(X)为μ(X)的逆函数
本思想是:如果一种错误比另一种错误更为重要,则在保持较重要错误率不变的条件下,使 另一种错误率最小。 聂曼—皮尔逊判决规则有重要的实际意义。例如,在细胞检验中,由于把异常细胞错判 为正常细胞的带来的风险较大,这时可以在这种错判的错误率为某一常数的约束下,使正常 细胞错判为异常细胞的错误率尽可能小,以此为原则来选择判决门限 t 。 图 2-2 两类的类概率密度曲线 从图 2-2 可以看出: 2 12 1 1 ( ) ( | ) R P e p X dx (2-24) 1 21 2 2 ( ) ( | ) R P e p X dx (2-25) 假定 21 保持不变,为某个给定的正数,令: 12 21 (2-26) 为了使 12 最小化,就要通过适当地选择某个正数 使 最小。 1 12 1 1 ( | ) R p X dX (2-27) 2 21 2 1 ( | ) R p X dX (2-28) 把(2-27)式和(2-25)式代入(2-26)式,得到 1 2 1 1 [ ( | ) ( | )] R p X p X dX (2-29) 把(2-28)式和(2-24)式代入(2-26)式,得到 2 1 2 [ ( | ) ( | )] R p X p X dX (2-30) 为了使 最小化,上两式中的被积函数最好为负数,从而得到聂曼—皮尔逊判决规则为 1 2 1 2 1 2 ( | ) , ( | ) ( | ) ( | ) p X p X p X p X X X 若 则 若 则 (2-31) 从式(2-31)可以看出,聂曼—皮尔逊判决规则归结为寻找判决阈值 ,显然 是 X 的函数,根据上式,要求 ( ) X 为 ( ) X = 1 2 ( | ) ( | ) p X p X (2-32) 为了最后确定判决阈值,利用给定的正数 21 ,由(2-25)式,并参考图 2-2,得到 1 ( ) 21 2 ( | ) X p X dX (2-33) 式中 1 ( ) X 为 ( ) X 的逆函数。 0 x ( | ) 1 p x ( ) 1 ( ) P e 2 P e R1 R2 ( | ) 2 p x ( | ) i p x t

2.3正态分布中的Bayes分类方法在上一节中,我们介绍了Bayes分类的三种方法,其中Bayes最小错误率判决规则是最基本的方法,当决策风险取0一1损失函数时,最小风险判决规则和最大似然比判决规则与最小错误判决规则是统一的。以上几种方法,都涉及类条件概率密度函数p(xの),事实上,p(x|の)的获取是比较困难的,在实际应用中,为了计算上的方便,往往假设p(x|の)服从多元正态分布。下面以最小错误判决规则为例,研究p(Xの)服从多元正态分布时,Bayes分类的应用。由式(2-5)的最小错误率的判决准则,可得其对应的判决函数为g,(X)= p(X |o,).P(o,) i=1,2,...,c(2-34)对类问题,其判决规则为:(2-35)g,(X)>g,(X),i=1,2,",c,j*i=xE0,此时任两个类别的决策面方程为(2-36)g,(X)=g,(X)设X为n维特征向量,且p(XIの)服从正态分布的,即p(X|の)~N(μ,Z),则P(o)(X-μ)z-'(X-μ)(2-37)g;(x) =expl(2元)%/z,exP[-2为了方便计算,对原判别函数取对数,g(x)可写为如下形式11(X-μ)Z,(X-μ)-"in2元-=In /Z, /+In P(o,)(2-38)g,(X)=-212元22"1n2元与类别无关,不影响分类决策,可以去掉。因此g,(X)可进一步简化为式中,2_(X-μ)Z-(X-μ)--In/Z, /+In P(o,)(2-39)g,(X)= -22将式(2-39)代入式(2-36),得P(0)=0(n/2,/-1n|2,)-[(X - 4,) Z(X -4)-(X- μ,) 2,(X -μ,)]+n BP(o)(2-40)式中,Z,为,类的nxn维协方差矩阵,μ=(μ,z",)为の,类的n维均值向量,X=(α,x2,",x,)为n维的特征向量,Z-为Z,的逆阵,IZ,I为Z,的行列式。为了进一步理解多元正态分布下的判决函数和决策面,下面分几种特殊情况进行讨论。(1) Z, =αI即每类的协方差矩阵都相等,类内各特征维度间相互独立,且方差相同。9?0Z, =01=0式(2-38)的判别函数重写为
2.3 正态分布中的 Bayes 分类方法 在上一节中,我们介绍了 Bayes 分类的三种方法,其中 Bayes 最小错误率判决规则是最 基本的方法,当决策风险取 0-1 损失函数时,最小风险判决规则和最大似然比判决规则与 最小错误判决规则是统一的。以上几种方法,都涉及类条件概率密度函数 p x( | ) ,事实上, p x( | ) 的获取是比较困难的,在实际应用中,为了计算上的方便,往往假设 p x( | ) 服从 多元正态分布。下面以最小错误判决规则为例,研究 p X( | ) 服从多元正态分布时,Bayes 分类的应用。 由式(2-5)的最小错误率的判决准则,可得其对应的判决函数为 ( ) ( | ) ( ) i i i g X p X P i 1,2, ,c (2-34) 对 c 类问题,其判决规则为: ( ) ( ), 1,2, , , i j i g X g X i c j i x (2-35) 此时任两个类别的决策面方程为 ( ) ( ) i j g X g X (2-36) 设 X 为 n 维特征向量,且 ( | )i p X 服从正态分布的,即 ( | )i p X ~ ( , ) N i i ,则 1 1 2 2 ( ) 1 ( ) exp ( ) ( ) 2 (2 ) | | i T i i i i n i P g x X X (2-37) 为了方便计算,对原判别函数取对数, ( ) i g x 可写为如下形式 1 1 1 ( ) ( ) ( ) ln 2 ln | | ln ( ) 2 2 2 T i i i i i i n g X X X P (2-38) 式中, ln 2 2 n 与类别无关,不影响分类决策,可以去掉。因此 ( ) i g X 可进一步简化为 1 1 1 ( ) ( ) ( ) ln | | ln ( ) 2 2 T i i i i i i g X X X P (2-39) 将式(2-39)代入式(2-36),得 1 1 1 1 ( ) ln ln ( ) ( ) ( ) ( ) ln 0 2 2 ( ) T T i i j i i i j j j j P X X X X P (2-40) 式中, i 为 i 类的 n n 维协方差矩阵, 1 2 ( , , , )T i n 为 i 类的 n 维均值向量, 1 2 ( , , , )T X x x x n 为 n 维的特征向量, 1 i 为 i 的逆阵, | | i 为 i 的行列式。为了进 一步理解多元正态分布下的判决函数和决策面,下面分几种特殊情况进行讨论。 (1) 2 i I 即每类的协方差矩阵都相等,类内各特征维度间相互独立,且方差相同。 2 2 2 . 0 . . . 0 . i I 式(2-38)的判别函数重写为

-(X -μ) Z,(X -μ)-In2元-↓In(2,I+In P(0,)g(X)=a"In2元去掉,判别函数可将式中与类别无关的项Z,='1,Z'=2,,|=",简化为[X -μ,g(X)=+ n P(o)(2-41)2g2其中,X-μ=(X-μ)(X-μ))。下面再分两种情况计论。1)如果c个类的先验概率相等当类别@(i=12,…,c)的先验概率相等时,即(2-41)P()= P(0,)=..= P(0.)此时,去掉式(2-41)中的lnP(の),并不影响判决结果,因此判别函数为_[X-μg (X)= -(2-42)202从式(2-24)中可以看出,分类判决结果其实只与各类均值μ有关,g(X)把待分类样本X划分到距各类均值欧式距离最近的类别中,因此又称该分类器称为“最小距离分类器”。图2-4是以二分类为例的最小距离分类器。H0Ix-μl-i400Ix-μll00112p(0,)>p(o)R图2-4最小距离分类器图2-5先验概率不同时的最小距离分类器2)如果c个类的先验概率不相等因为(X-μ)(X-μ)=XIX-2μX+μμ,式中二次项XTX不含有类别信息,式(2-41的判别函数可简化为2(-2 +'4)+I P()g,(X)=(2-43)可以设g,(X)为如下线性函数
1 1 1 ( ) ( ) ( ) ln 2 ln ln ( ) 2 2 2 T i i i i i i n g X X X P 将式中与类别无关的项 2 1 2 2 , , , ln 2 2 n i i i n I I 去掉,判别函数可 简化为 2 2 ( ) ln ( ) 2 i i i X g X P (2-41) 其中, 2 T X X X i i i 。下面再分两种情况计论。 1) 如果 c 个类的先验概率相等 当类别 ( 1,2, , ) i i c 的先验概率相等时,即 1 2 ( ) ( ) . ( ) P P P c (2-41) 此时,去掉式(2-41)中的 ln ( ) P i ,并不影响判决结果,因此判别函数为 2 2 ( ) 2 i i X g X (2-42) 从式(2-24)中可以看出,分类判决结果其实只与各类均值 i 有关, ( ) i g X 把待分类样本 X 划分到距各类均值欧式距离最近的类别中,因此又称该分类器称为“最小距离分类器”。图 2-4 是以二分类为例的最小距离分类器。 1 1 2 1 x 2 x 2 X 1 X 2 1 1 2 1 x 2 0 x × 2 1 p p ( ) ( ) 2 x H 图 2-4 最小距离分类器 图 2-5 先验概率不同时的最小距离分类器 2)如果 c 个类的先验概率不相等 因为 2 T T T X X X X X i i i i i ,式中二次项 T X X 不含有类别信息, 式(2-41 的判别函数可简化为 1 1 2 1 ( ) 2 ln ( ) 2 i i i i g X X P (2-43) 可以设 ( ) i g X 为如下线性函数
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 武汉理工大学:《模式识别》课程授课教案(讲义)第1章 绪论.pdf
- 武汉理工大学:《模式识别》课程教学大纲 Pattern Recognition(研究生).pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第56讲 推荐系统简介.pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第55讲 Lucene信息检索平台.pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第54讲 Web信息检索简介.pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第57讲 Mahout数据挖掘平台.pdf
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第53讲 无线网状网.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第52讲 Adhoc及WSN.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第50讲 无线局域网与802.11协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第51讲 无线城域网及个人区域网.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第47讲 通信方式与传输介质.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第48讲 数据速率与多路复用.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第46讲 物理层概念及编码.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第49讲 同步光纤网.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第39讲 链路层协议BSC及HDLC.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第40讲 滑动窗口协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第41讲 PPP协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第38讲 数据链路层及差错控制.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第45讲 以太网组网与网桥.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第43讲 高速以太网.doc
- 武汉理工大学:《模式识别》课程授课教案(讲义)第3章 概率密度函数的参数估计.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第4章 非参数判别分类方法.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第5章 聚类分析.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第6章 特征提取与选择.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第7章 模糊模式识别.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第8章 神经网络在模式识别中的应用.pdf
- 武汉理工大学:《模式识别》课程教学资源(实验指导,共五个实验).pdf
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第8章 神经网络模式识别法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第5章 特征选择与特征提取.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第6章 句法模式识别.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第7章 模糊模式识别法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第3章 判别函数及几何分类法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第1章 绪论、第2章 聚类分析.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第4章 基于统计决策的概率分类法.ppt
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 5 Out of Order Execution.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 6 Memory Hierarchy and Cache.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 4 Spectualtive Execution.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 7 Multiprocessors.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 2 Instruction Set Architecture(Microarchitecture Implementation).pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 3 Pipelining.pdf
