武汉理工大学:《模式识别》课程授课教案(讲义)第3章 概率密度函数的参数估计

第3章概率密度函数的参数估计上一章我们讨论了贝叶斯决策理论,采用贝叶斯决策理论进行分类决策时,需要计算后验概率P(のIX),或者需要事先知道各类的先验概率P()和样本的类条件概率密度p(X),但实际应用中先验概率和类概率密度函数往往是未知的。通常,对研究的对象只有一些模糊性的知识,或者通过实验采样而得到的一些样本。这就需要根据已有的样本,利用统计推断中的估计理论对样本的分布做出估计,然后将估计值当做真实值来使用。在模式识别问题中,先验概率的估计相对比较容易,它可以由各类样本在总体样本集中所占的比例进行估计。但类条件概率密度函数的估计却比较困难,从样本出发估计其函数形式和参数,这就是本章要讨论参数估计问题。3.1概率密度函数估计概述所谓的概率密度函数估计是已知某类别の,的样本X,(i=1,2,N),采用某种规则估计出样本所属类的概率函数p(Xの)。从估计的方法来讲,可分为参数估计和非参数估计。参数估计是先假定样本的类条件概率密度函数P(Xの)的类型已知,如服从正态分布、二项分布,再用已知类别的学习样本估计函数里面的未知参数9,这项工作也叫训练或学习。参数估计的方法通常采用的是最大似然估计方法和贝叶斯估计方法。非参数估计则是类条件概率密度函数的形式也未知,直接用已知类别的学习样本去估计函数的数学模型,非参数估计的方法通常采用的是Parzen窗法、k-近邻法。为了便于理解,首先介绍参数估计中的一些基本概念。(1)统计量。假如概率密度函数的形式已知,但表征函数的参数0未知,则可将0的估计值构造成样本X(i=12N)的某种函数,这种函数称为统计量。参数估计的任务,就是利用样本求出参数の的估计值=e(X,X",X)。(2)参数空间。参数0的取值范围称为参数空间,书中用③来表示。(3)点估计、估计量和估计值。构造一统计量作为未知参数0的估计,称为点估计,称为估计量,由样本(X,X,,,X)作为自变量计算出来的值称为估计值。(4)区间估计。通过从总体中抽取的样本,根据一定的正确度与精确度的要1
1 第 3 章 概率密度函数的参数估计 上一章我们讨论了贝叶斯决策理论,采用贝叶斯决策理论进行分类决策时,需 要计算后验概率 P X i | ,或者需要事先知道各类的先验概率 ( ) P i 和样本的类 条件概率密度 ( | )i p X ,但实际应用中先验概率和类概率密度函数往往是未知的。 通常,对研究的对象只有一些模糊性的知识,或者通过实验采样而得到的一些样本。 这就需要根据已有的样本,利用统计推断中的估计理论对样本的分布做出估计,然 后将估计值当做真实值来使用。在模式识别问题中,先验概率的估计相对比较容易, 它可以由各类样本在总体样本集中所占的比例进行估计。但类条件概率密度函数的 估计却比较困难,从样本出发估计其函数形式和参数,这就是本章要讨论参数估计 问题。 3.1 概率密度函数估计概述 所谓的概率密度函数估计是已知某类别 i 的样本 ( 1,2, , ) X i N i ,采用某 种规则估计出样本所属类的概率函数 ( )i p X 。从估计的方法来讲,可分为参数 估计和非参数估计。参数估计是先假定样本的类条件概率密度函数 ( )i p X 的类 型已知,如服从正态分布、二项分布,再用已知类别的学习样本估计函数里面的未 知参数 ,这项工作也叫训练或学习。参数估计的方法通常采用的是最大似然估计 方法和贝叶斯估计方法。非参数估计则是类条件概率密度函数的形式也未知,直接 用已知类别的学习样本去估计函数的数学模型,非参数估计的方法通常采用的是 Parzen 窗法、 N k -近邻法。 为了便于理解,首先介绍参数估计中的一些基本概念。 (1)统计量。假如概率密度函数的形式已知,但表征函数的参数 θ 未知,则 可将 θ 的估计值构造成样本 ( 1,2, , ) X i N i 的某种函数,这种函数称为统计量。 参数估计的任务,就是利用样本求出参数 θ 的估计值 1 2 ( , ˆ , , ) θ X X X N 。 (2) 参数空间。参数 θ 的取值范围称为参数空间,书中用 来表示。 (3)点估计、估计量和估计值。构造一统计量作为未知参数 θ 的估计,称为 点估计, ˆ θ 称为估计量,由样本 1 2 ( , , , ) X X X N 作为自变量计算出来的 ˆ θ 值称为 估计值。 (4)区间估计。通过从总体中抽取的样本,根据一定的正确度与精确度的要

求,构造出适当的区间,作为未知参数的真值所在范围的估计。下面我们分别介绍最大似然估计,贝叶斯估计、贝叶斯学习三种参数估计方法,以及Parzen窗法和ky-近邻法两种非参数估计方法。3.2最大似然估计对c类问题,设类别の,的概率密度函数p(Xの))的形式已知,但表征该函数的参数未知,记为O。从の,中独立抽取N个样本,如果能从这N个样本中推断出,的估计值e,,则完成了概率密度函数p(Xの)的估计。为了强调p(Xの)与参数,的关联性,也可把概率密度函数写成p(Xの,)。例如,如果已知某一类别の概率密度函数服从正态分布,则未知参数,包含了表征该函数的均值μ和协方差2,的全部信息,对参数0,的估计,实质上就是对正态函数的均值儿和协方差之,的估计。下面我们首先给出似然函数的定义,然后从似然函数出发,讨论最大似然估计的原理。1.似然函数从の类中抽取N个样本XM)=X,XX由于这N个样本均来自の,类,因此可将其概率密度函数p(X,)简化为p(Xの),则称这N个样本的联合概率密度函数p(X(N),の)为相对于样本集XM的e的似然函数。由于e是概率密度函数的一个确定性参数集,因此概率密度函数p(X(N)①)实际上就是条件概率p(XNの)。如果N个样本为独立抽取,似然函数可表示为(3-1)p(X(M)10)= p(X),X2,**,X10)=p(X10)k=1式(3-1)是在参数下观测到的样本集X(N)的概率(联合分布)密度。2.最大似然估计从の,类中独立抽取N个样本X(M)=(X,X2",XN),那么这N个样本最有可能来自于哪个概率密度函数,或者说与这N个样本最匹配的未知参数0是什么。这是最大似然估计要解决的问题,它的主要思想是,给定样本集X(N)=(X,X2,X),通过极大化似然函数p(X(M)の)去求与样本匹配的参数θ,θ的最大似然估计量θ就是使似然函数达到最大的估计量,图3-1是θ为dp(x()0)=0,可求得解。一维时的最大似然估计示意图。由de2
2 求,构造出适当的区间,作为未知参数的真值所在范围的估计。 下面我们分别介绍最大似然估计,贝叶斯估计、贝叶斯学习三种参数估计方法, 以及 Parzen 窗法和 N k -近邻法两种非参数估计方法。 3.2 最大似然估计 对 c 类问题,设类别 i 的概率密度函数 ( )i p X 的形式已知,但表征该函数 的参数未知,记为 i θ 。从 i 中独立抽取 N 个样本,如果能从这 N 个样本中推断出 i θ 的估计值 ˆ i θ ,则完成了概率密度函数 ( )i p X 的估计。为了强调 ( )i p X 与参 数 i θ 的关联性,也可把概率密度函数写成 ( , ) i i p X θ 。例如,如果已知某一类别 i 概率密度函数服从正态分布,则未知参数 i θ 包含了表征该函数的均值 i 和协方差 i 的全部信息,对参数 i θ 的估计,实质上就是对正态函数的均值 i 和协方差 i 的 估计。下面我们首先给出似然函数的定义,然后从似然函数出发,讨论最大似然估 计的原理。 1. 似然函数 从 i 类中抽取 N 个样本 ( ) 1 2 , , , N X X X XN ,由于这 N 个样本均来自 i 类,因此可将其概率密度函数 ( , ) i i p X θ 简化为 p X( ) θ ,则称这 N 个样本的 联合概率密度函数 ( ) ( , ) N p X θ 为相对于样本集 ( ) N X 的 θ 的似然函数。由于 θ 是概 率密度函数的一个确定性参数集,因此概率密度函数 ( ) ( , ) N p X θ 实际上就是条件概 率 ( | ) N p X θ 。如果 N 个样本为独立抽取,似然函数可表示为 ( ) 1 2 1 ( | ) ( , , , | ) ( | ) N N N k k p X p p θ X X X θ X θ (3-1) 式(3-1)是在参数 θ 下观测到的样本集 ( ) N X 的概率(联合分布)密度。 2. 最大似然估计 从 i 类中独立抽取 N 个样本 ( ) 1 2 , , , N X X X XN ,那么这 N 个样本最有 可能来自于哪个概率密度函数,或者说与这 N 个样本最匹配的未知参数 θ 是什 么。这是最大似然估计要解决的问题,它的主要思想是,给定样本集 ( ) 1 2 , , , N X X X XN ,通过极大化似然函数 ( ) ( | ) N p X θ 去求与样本匹配的参 数 θ ,θ 的最大似然估计量 ˆ θ 就是使似然函数达到最大的估计量,图 3-1 是 θ 为 一维时的最大似然估计示意图。由 ( ) ( | ) 0 N dp X d θ θ ,可求得解

p(X"10)160图3-10为一维时的最大似然估计示意图由于对数函数具有单调性,为了便于分析,对似然函数取对数H(0)=In p(X(N)[0)(3-2)显然,当估计量θ使数函数取最大值时,似然函数达到最大值,的最大似然估计是下面微分方程的解:dH(0) =0(3-3)de设の类的概率密度函数包含p个未知参数,则e为p维向量0=[0.0,...,0.](3-4)此时NH(0)= In p(X(M)[0)=In p(X, 10)(3-5)k=l公式(3-3)可表示为al2inp(X10)(3-6)a0即[2%-Inp(X,10)=000,[2mp(x,1)-0台0(3-7)a-Inp(X,10)=0台0e求解(3-7)微分方程组,可得到θ的最大似然估计值。3
3 ( |) N p X O ˆ 图 3-1 θ 为一维时的最大似然估计示意图 由于对数函数具有单调性,为了便于分析,对似然函数取对数 ( ) ( ) ln ( | ) N H p X θ θ (3-2) 显然,当估计量 ˆ θ 使数函数取最大值时,似然函数达到最大值, θ 的最大 似然估计是下面微分方程的解: ( ) 0 dH d θ θ (3-3) 设 i 类的概率密度函数包含 p 个未知参数,则 θ 为 p 维向量 T 1 2 [ , , , ] θ p (3-4) 此时 ( ) 1 ( ) ln ( | ) ln ( | ) N N k k H p X p X θ θ θ (3-5) 公式(3-3)可表示为 1 ln ( | ) 0 N k k p X θ θ (3-6) 即 1 1 1 2 1 ln ( | ) 0 ln ( | ) 0 ln ( | ) 0 N k k N k k N k k p p X p X p X θ θ θ (3-7) 求解(3-7)微分方程组,可得到 θ 的最大似然估计值 ˆ θ

3.3贝叶斯估计与贝叶斯学寸1.贝叶斯估计贝叶斯估计可描述为给定样本集X(N)=X,X2",X),对样本的概率密度函数的真实参数θ进行估计,使其估计值θ带来的贝叶斯风险最小。回顾上一章的最小风险贝叶斯决策,可以看出贝叶斯决策和贝叶斯估计都是以贝叶斯风险最小为基础,只是要解决的问题不同,前者是要判决样本X的类别归属,而后者是估计样本集X()所属总体分布的参数,本质上二者是统一的。贝叶斯决策和贝叶斯估计各变量的对应关系如表3-1所示。表3-1贝叶斯决策和贝叶斯估计各变量的对应关系贝叶斯决策贝叶斯估计样本集X(N)样本X估计量决策a,真实类别の真实参数0状态空间A是离散空间参数空间是连续空间先验概率P(の)参数的先验分布p(①)在上一章我们研究分类问题时,用式(2-11)定义了条件平均风险R(α,| X)= [L(α, o,)]= ZL(α,/o,) (o, I X)i= 1,..,ai-l参考上式,并对照表3-1贝叶斯决策和贝叶斯估计各变量的对应关系,可以定义在观测样本集X(N)=(X,X2",X)得条件下,用作为的估计的期望损失为R(0| X(N)= J。L(0,0)p(0|x(N)d0(3-12)其中,L(.)为用用0代替0所造成的损失,①为参数空间。考虑到X(N)的各种取值,应该求R(X(N))在空间2=2×Q××Q中的期望,即R=JeROI X))p(X')d(3-13)将(3-12)代入上式,得R= Ja J。L(e,0)p(e1x()p(x()dedx(M)(3-14)使R最小求得参数的估计值θ即为贝叶斯估计。显然,损失函数L(①,の)对0的求解有重要影响,当选用不同形式的损失函数时,所得到的贝叶斯估4
4 3.3 贝叶斯估计与贝叶斯学习 1.贝叶斯估计 贝叶斯估计可描述为给定样本集 ( ) 1 2 , , , N X X X XN ,对样本的概 率密度函数的真实参数 θ 进行估计,使其估计值 ˆ θ 带来的贝叶斯风险最小。回 顾上一章的最小风险贝叶斯决策,可以看出贝叶斯决策和贝叶斯估计都是以 贝叶斯风险最小为基础,只是要解决的问题不同,前者是要判决样本 X 的类 别归属,而后者是估计样本集 ( ) N X 所属总体分布的参数,本质上二者是统一 的。贝叶斯决策和贝叶斯估计各变量的对应关系如表 3-1 所示。 表 3-1 贝叶斯决策和贝叶斯估计各变量的对应关系 贝叶斯决策 贝叶斯估计 样本 X 样本集 ( ) N X 决策 i a 估计量 ˆ θ 真实类别 i 真实参数 θ 状态空间 A 是离散空间 参数空间 是连续空间 先验概率 ( ) P i 参数的先验分布 p( ) 在上一章我们研究分类问题时,用式(2-11)定义了条件平均风险 1 ( | ) [ ( | )] ( | ) ( | ) c i i j i j j j R X E L L P X i 1,2, ,a 参考上式,并对照表 3-1 贝叶斯决策和贝叶斯估计各变量的对应关系,可以 定义在观测样本集 ( ) 1 2 , , , N X X X XN 得条件下,用 ˆ θ 作为 θ 的估计的 期望损失为 ˆ ( ) ( ) ˆ ( | ) ( , ) ( | ) N N R X L p X d (3-12) 其中, ˆ L( , ) 为用用 ˆ θ 代替 θ 所造成的损失, 为参数空间。考虑到 ( ) N X 的 各种取值,应该求 ˆ ( ) ( | ) N R X 在空间 N 中的期望,即 ˆ ( ) ( ) ( ) ( | ) ( ) N N N N R R X p X dX (3-13) 将(3-12)代入上式,得 ˆ ( ) ( ) ( ) ( , ) ( | ) ( ) N N N N R L p X p X d dX (3-14) 使 R 最小求得参数 θ 的估计值 ˆ θ 即为贝叶斯估计。显然,损失函数 ˆ L( , ) 对 ˆ θ 的求解有重要影响,当选用不同形式的损失函数时,所得到的贝叶斯估

计值也不同。当损失函数为二次函数时L(0,0)=(0-0) (0-0)(3-15)可证明0的求解公式如下-(p(0x()d(3-16)上式表明,0的最小方差贝叶斯估计是观测样本集X(M)条件下的θ的条件期望。综上所述,观测到一组样本X(M),通过似然函数p(X(M)の)并利用贝叶斯公式将随机变量的先验概率密度p(①)转变为后验概率密度,然后根据θ的后验概率密度求出估计量θ。具体步骤如下:(1)确定θ的先验概率密度p(の)。(2)由样本集X(M)={X,X2,,X)求出p(x(N)10)。(3)利用贝叶斯公式求出θ的后验概率密度p(X(N)10)p(0)p(0X()=(3-17)fp(X(M) 10)p(0)de(4)根据式(3-15)求贝叶斯估计量6。在步骤(2)涉及到p(X(M1の)的求解,当样本的类概率密度函数的类型已知时,由于样本X,X,"",X为独立抽取,因此有p(x(N)10)= p(X1,X2,,X0)=p(X0)(3-18)2.贝叶斯学习贝叶斯学习的思想是利用θ的先验概率密度p()及样本提供的信息求出θ的后验概率密度p(IX(M)),根据后验概率密度直接求出类概率密度函数P(XIXM)。因此,贝叶斯学习和贝叶斯估计的前提条件完全相同,区别在于当求出后验概率密度p(OIX(M))后,贝叶斯学习没有对参数θ进行估计,而是直接进行总体概率密度的推断得到p(XIX(M))。所以,贝叶斯学习的前三步与贝叶斯估计完全一致,最后p(XIX(M))可由送代计算完成。选代计算式的推导如下:p(Xの)由未知参数确定,可写为p(X|の)=p(X|0),假定XN=(X,X..…,X)是独立抽取的の,类的一组样本,设θ的后验概率密度函数为p(|X(N)),式(3-15)贝叶斯公式重写为5
5 计值 ˆ θ 也不同。当损失函数为二次函数时 ˆ ˆ ˆ ( , ) T L (3-15) 可证明 ˆ θ 的求解公式如下 ˆ ( ) ( | ) N p X d (3-16) 上式表明, θ 的最小方差贝叶斯估计是观测样本集 ( ) N X 条件下的 θ 的条件期 望。 综上所述,观测到一组样本 ( ) N X ,通过似然函数 ( ) | N p X 并利用贝 叶斯公式将随机变量 的先验概率密度 p() 转变为后验概率密度,然后根据 的后验概率密度求出估计量 ˆ 。具体步骤如下: (1) 确定 的先验概率密度 p() 。 (2) 由样本集 ( ) 1 2 { , , , } N X X X XN 求出 ( ) | N p X 。 (3)利用贝叶斯公式求出 的后验概率密度 ( ) ( ) ( ) ( | ) ( ) ( | ) ( | ) ( ) N N N p X p p X p X p d (3-17) (4)根据式(3-15)求贝叶斯估计量 ˆ 。 在步骤(2)涉及到 ( ) | N p X 的求解,当样本的类概率密度函数的类型已 知时,由于样本 1 2 , , , X X XN 为独立抽取,因此有 ( ) 1 2 1 | , , , ( ) N N N i i p X p X X X p X (3-18) 2.贝叶斯学习 贝叶斯学习的思想是利用 的先验概率密度 p() 及样本提供的信息求出 的后验概率密度 ( ) ( | ) N p X ,根据后验概率密度直接求出类概率密度函数 ( ) ( | ) N p X X 。因此,贝叶斯学习和贝叶斯估计的前提条件完全相同,区别在于当 求出后验概率密度 ( ) ( | ) N p X 后,贝叶斯学习没有对参数 进行估计,而是直接 进行总体概率密度的推断得到 ( ) ( | ) N p X X 。所以,贝叶斯学习的前三步与贝叶斯 估计完全一致,最后 ( ) ( | ) N p X X 可由迭代计算完成。 迭代计算式的推导如下: ( | ) p X i 由 未 知 参 数 确 定 , 可 写 为 p p ( | ) | X X i , 假 定 { , , , } 1 2 N N X X X X 是独立抽取的 i 类的一组样本,设 的后验概率密度函 数为 ( ) ( | ) N p X ,式(3-15)贝叶斯公式重写为

p(X(N) [0)p(0)p(0/X(N)):J。p(X()10)p(0)de由条件独立可知p(X()10)= p(X10)p(X(N-I) [0)(3-19)其中,p(XN-1の)表示除样本X以外其余样本的集合。将式(3-19)代入式(3-15)得p(X10)p(X(N-)[0)p(0)p(0/X(N))=(3-20)[。p(X10)p(X(N-I) /0)p(0)de类似地,也可推导出:p(X(N-I) [0)p(0)p(0X(N-I):(3-21)[。p(X(N-1) /0)p(0)de将(3-21)式代入(3-0)式得:p(X10)p(01X(N-I))(3-22)p(OIX(Np(X10)p(0X(N-)de公式(3-22)就是利用X(N)估计p(O|X(N))的选代计算方法。对于参数估计的递推贝叶斯方法,其迭代过程即是贝叶斯学习的过程。(1)根据先验知识得到θ的先验概率密度函数的初始估计p(①)。相当于N=0时(X(N)=X())密度函数的一个估计:(2)用X,对初始的p()进行修改。p(X 10)p(0)p(0/X()= p(01X)= -(3-23)p(X,10)p(0)de(3)给出X,,对用X估计的结果进行修改p(X,10)p(01X())p(01 X(2)= p(01Xi,X,):(3-24)p(X,10)p(01x()do(4)逐次给出X,X,X,得到p(X10)p(0| X(N-I)p(0X(N)=Jp(X10)p(0/X(N-)de(5)p(Xo,)直接由p(e/X)计算得到,写为p(x/X):p(x/X)=[p(X,0|XN)de=[p(X|0)p(0|X)d0(3-25)6
6 ( ) ( ) ( ) ( | ) ( ) ( | ) ( | ) ( ) N N N p X p p X p X p d 由条件独立可知 ( ) ( 1) ( | ) ( | ) ( | ) N N N p X p X p X (3-19) 其中, 1 ( | ) N p X 表示除样本 X N 以外其余样本的集合。将式(3-19)代入式(3-15) 得 ( 1) ( ) ( 1) ( | ) ( | ) ( ) ( | ) ( | ) ( | ) ( ) N N N N N p X p X p p X p X p X p d (3-20) 类似地,也可推导出: ( 1) ( 1) ( 1) ( | ) ( ) ( | ) ( | ) ( ) N N N p X p p X p X p d (3-21) 将(3-21)式代入(3-0)式得: ( 1) ( ) ( 1) ( | ) ( | ) ( | ) ( | ) ( | ) N N N N N p X p X p X p X p X d (3-22) 公式(3-22)就是利用 ( ) N X 估计 ( ) ( | ) N p X 的迭代计算方法。对于参数估计的递 推贝叶斯方法,其迭代过程即是贝叶斯学习的过程。 (1) 根据先验知识得到 的先验概率密度函数的初始估计 p() 。相当于 N 0 时( ( ) (0) N X X )密度函数的一个估计; (2) 用 X1 对初始的 p() 进行修改。 (1) 1 1 1 ( | ) ( ) ( | ) ( | ) ( | ) ( ) p X p p X p X p X p d (3-23) (3) 给出 X2 ,对用 X1 估计的结果进行修改 (1) (2) 2 1 2 (1) 2 ( | ) ( | ) ( | ) ( | , ) ( | ) ( | ) p X p X p X p X X p X p X d (3-24) (4) 逐次给出 1 2 , , , X X XN ,得到 ( 1) ( ) ( 1) ( | ) ( | ) ( | ) ( | ) ( | ) N N N N N p X p X p X p X p X d (5) ( | ) p X i 直接由 N p | X 计算得到,写为 N p X | X : | ( , | ) ( | ) ( | ) N N N p X p X d p p X d X X X (3-25)

下面通过两个例子,讨论正态分布密度函数的贝叶斯估计和贝叶斯学习问题。3.4非参数估计以上我们讨论了最大似然估计、贝叶斯估计和贝叶斯学习这三种参数估计方法,其共同的特点是样本概率密度函数的分布的形式已知,而表征函数的参数未知,所需要做的工作是从样本估计出参数的最优取值。但在实际应用中,上述条件往往并不能得到满足,人们并不知道概率密度函数的分布形式,或者函数分布并不典型,或者不能写成某些参数的函数。为了设计贝叶斯分类器,仍然需要获取概率密度函数的分布知识,所以非常有必要研究如何从样本出发,直接推断其概率密度函数。于是人们提出一些直接用样本来估计总体分布的方法,称之为估计分布的非参数法。非参数估计方法的任务是从样本集X(N)=(X,X2",X)中估计样本空间2中任何一点的概率密度p(X)。如果样本集来自某个确定类别(如の类),则估计的结果为该类的类条件概率密度p(XIの)。如果样本集来自多个类别,且不能分清哪个样本来自哪个类别,则估计结果为混合概率密度。3.4.1非参数估计的基本方法下面从一个例子说明非参数估计的基本思想。假如样本集X(N)={(X,X,",XN)由N个一维样本组成,每个样本X,在以X,为中心,宽度为h的范围内,对分布的贡献为α。显然可以把每个样本在X,点的“贡献”相加作为这点的概率密度p(X)的估计。对所有的X都这么做,就可以得到总体分布p(X)的估计值。通常采用某种函数表示某一样本对某点概率密度的贡献,则某点概率密度P(X的估计为所有样本所作贡献的线性组合。非参数估计的原理如图3-2所示。7
7 下面通过两个例子,讨论正态分布密度函数的贝叶斯估计和贝叶斯学习问题。 3.4 非参数估计 以上我们讨论了最大似然估计、贝叶斯估计和贝叶斯学习这三种参数估计方 法,其共同的特点是样本概率密度函数的分布的形式已知,而表征函数的参数未知, 所需要做的工作是从样本估计出参数的最优取值。但在实际应用中,上述条件往往 并不能得到满足,人们并不知道概率密度函数的分布形式,或者函数分布并不典型, 或者不能写成某些参数的函数。为了设计贝叶斯分类器,仍然需要获取概率密度函 数的分布知识,所以非常有必要研究如何从样本出发,直接推断其概率密度函数。 于是人们提出一些直接用样本来估计总体分布的方法,称之为估计分布的非参数 法。 非参数估计方法的任务是从样本集 ( ) 1 2 { , , , } N X X X X N 中估计样本空间 中任何一点的概率密度 p X( )。如果样本集来自某个确定类别(如 i 类),则估 计的结果为该类的类条件概率密度 ( | )i p X 。如果样本集来自多个类别,且不能 分清哪个样本来自哪个类别,则估计结果为混合概率密度。 3.4.1 非参数估计的基本方法 下 面 从 一 个 例 子 说 明 非 参 数 估 计 的 基 本 思 想 。 假如样本集 ( ) 1 2 { , , , } N X X X X N 由 N 个一维样本组成,每个样本 Xi 在以 Xi 为中心,宽 度为 h 的范围内,对分布的贡献为 a 。显然可以把每个样本在 Xi 点的“贡献”相 加作为这点的概率密度 ( )i p X 的估计。对所有的 X 都这么做,就可以得到总体分 布 p X( ) 的估计值。通常采用某种函数表示某一样本对某点概率密度的贡献,则某 点概率密度 p X( ) 的估计为所有样本所作贡献的线性组合。非参数估计的原理如图 3-2 所示

PXxX,XXx图3-2非参数估计当然也可以认为每个样本对自已所在位置的分布“贡献”最大,离的越远,贡献越小。一个随机向量X落入特征空间区域R的概率P是P=J,p(X)dX(3-33)其中p(X)是X的概率密度函数,P是概率密度函数的一种平均形式,对P做估计就是估计出P(X)的这个平均值。设N个样本X(N)={X,X2,",X),它们是从概率密度为p(X)的总体分布中独立抽取的,则N个样本中有k个样本落入了区域R的概率P自然服从二项分布,可以写为P =C p*(1- P)N-k(3-34)N!其中,CkP为样本X落在R的概率。使P取最大的k值称为k!(N-k)!众数(记为m),其意义为抽取N个样本中有m个样本落入R的概率最大。k为一个随机变量,由概率论可知其数学期望为NE(k)=Ek·P =N·P(3-35)k=lk的分布在其均值附近有一个陡峭的峰,这个峰值在k的众数m上,其意义是抽出N个样本中有k=m个样本落在区域R的概率最大。根据极限情况下的贝努利定理,可以认为k/N是P的一个合理的估计,也是概率密度函数平均值的一个好的估计,即有p=k(3-36)N8
8 X1 X2 Xi X N pX ˆ( ) 图 3-2 非参数估计 当然也可以认为每个样本对自己所在位置的分布“贡献”最大,离的越远,贡 献越小。 一个随机向量 X 落入特征空间区域 R 的概率 P 是 ( ) R P p X dX (3-33) 其中 p X( ) 是 X 的概率密度函数, P 是概率密度函数的一种平均形式,对 P 做估 计就是估计出 p X( ) 的这个平均值。 设 N 个样本 ( ) 1 2 , , , N X X X X N ,它们是从概率密度为 p X( ) 的总体分 布中独立抽取的,则 N 个样本中有 k 个样本落入了区域 R 的概率 Pk 自然服从二项 分布,可以写为 (1 ) k k N k P C P P k N (3-34) 其中, !( )! k N N C k N k ! , P 为样本 X 落在 R 的概率。使 Pk 取最大的 k 值称为 众数(记为 m ),其意义为抽取 N 个样本中有 m 个样本落入 R 的概率最大。 k 为 一个随机变量,由概率论可知其数学期望为 1 ( ) N k k E k k P N P (3-35) k 的分布在其均值附近有一个陡峭的峰,这个峰值在 k 的众数 m 上,其意义是抽出 N 个样本中有 k m 个样本落在区域 R 的概率最大。根据极限情况下的贝努利定 理,可以认为 k N/ 是 P 的一个合理的估计,也是概率密度函数平均值的一个好的 估计,即有 ˆ k P N (3-36)

假设总体概率密度p(X)是连续的,而且区域R足够小,使得p(X)在区域R中没有变化,则有P=J,p(X)dX= p(X)V(3-37)其中,X是R中的一个点,V是R的“体积”。综合式(3-36)与式(3-37),P(X)的估计为P(X)~k/N(3-38)VVk在式(3-29)中,如果给定R,即体积V固定,样本数N→0,→P则N此时p(X)dxPp(X) ~(3-39)VJdx即式(3-39)得到的是概率密度函数P(X的空间平均估计值。从理论上来讲,如果使p(X)趋近p(X),就必须让体积V趋近于零,同时k、N趋向于无穷大。但事实上,V不可能无穷小,样本总也总是有限的,不可能无穷大,所以P(X)总是存在误差。如果希望得到的估计不是区域R上平均值,体积V就需要趋向于零,则样本数目需要趋向于无穷,否则会出现落入区域R的样本个数为零的情况(k=0),则估计出的结果恒等于零,无任何意义。如果碰巧有一个或几个样本重合于X出现在R,则会使估计发散,甚至到无穷大。因此采用这种估计,势必要考虑K/的一定的方差及概率密度函数的某种平均。从理论上考虑,假设有无穷多个样本,可以采取如下措施去提高X处的概率密度p(X)的估计精度。构造一个区域序列R,R,..,对R采用一个样本进行估计,对R采用2个样本进行估计,依次类推,对R采用N个样本进行估计。设V是区域R的体积,k是落入Ry的样本个数。第N次估计的总体概率密度为KN/NpN(X)=(3-40)VN可以证明,若满足以下三个条件:①limn=0(3-41)V+09
9 假设总体概率密度 p X( ) 是连续的,而且区域 R 足够小,使得 p X( ) 在区域 R 中 没有变化,则有 ( ) ( ) R P p X dX p X V (3-37) 其中, X 是 R 中的一个点, V 是 R 的“体积”。 综合式(3-36)与式(3-37), p X ˆ( ) 的估计为 / ˆ( ) P k N p X V V (3-38) 在式(3-29)中,如果给定 R ,即体积 V 固定,样本数 N , k P N 则 此时 ( ) ˆ( ) R R P p X dX p X V dX (3-39) 即式(3-39)得到的是概率密度函数 的空间平均估计值。 从理论上来讲,如果使 p X ˆ( ) 趋近 p X( ) ,就必须让体积 V 趋近于零,同时 k 、 N 趋向于无穷大。但事实上, V 不可能无穷小,样本总也总是有限的,不可能无 穷大,所以 p X ˆ( ) 总是存在误差。如果希望得到的估计不是区域 R 上平均值,体积 V 就需要趋向于零,则样本数目需要趋向于无穷,否则会出现落入区域 R 的样本 个数为零的情况( k 0 ),则估计出的结果恒等于零,无任何意义。如果碰巧有一 个或几个样本重合于 X 出现在 R ,则会使估计发散,甚至到无穷大。因此采用这 种估计,势必要考虑 k N/ 的一定的方差及概率密度函数的某种平均。 从理论上考虑,假设有无穷多个样本,可以采取如下措施去提高 X 处的概率 密度 p X( ) 的估计精度。构造一个区域序列 1 2 R R, , ,对 R1 采用一个样本进行估 计,对 R2 采用 2 个样本进行估计,依次类推,对 RN 采用 N 个样本进行估计。设 VN 是区域 RN 的体积, N k 是落入 RN 的样本个数。第 N 次估计的总体概率密度为 / ˆ ( ) N N N k N p X V (3-40) 可以证明,若满足以下三个条件: ① lim 0 N N V (3-41) p X( )

②limk=00(3-42)N→kN=0lim(3-43)N-→0VN则总体概率密度的估计值收敛于实际值p(X)。上述条件中,条件①保证了空间平均式的收敛性:条件②保证了频数比的收敛性;条件③保证了估计式的收敛性。以上三个条件说明当N增大时,落入R的样本数也增加V不断减少,以使px(X)趋于p(X):尽管在一个小区域R中落入了大量的样本,但它的数目与样本总数相比还是可以忽略的。满足上述三个条件的区域序列主要有两种选择方法:(1)Parzen窗函数法:选定一个中心在X处的区域Rv,其体积为V以N的某个函数(例如,V=1/VN)的关系不断缩小,同时需对k和k/N加以限制,以使p(X)收敛于p(X),然后计算落入R的样本数k,用来估计局部密度P%(X)的值。(2)k近邻法:令k为N的某个函数(例如,k=VN),以X为中心构造一个体积为V的区域Ry,使R恰好包含k个样本,用这时的体积来估计p(X)的值。3.4.2Parzen窗法假设区域R为d维超立方体,向量X为d维特征空间中的一个点,超立方体R以原点为中心,侧棱长为h,则其体积V为V=hy(3-44)为了计算Rx中包含的样本数k,定义d维空间的基本窗函数,j=1,2...d.24.(3-45)p(u)=o,others其中,u=(u,uz,us,",ua),p(u)称为Parzen窗函数,它是以原点为中心的超立方体。利用函数(u)可以实现对落在区域R的样本进行计数,当X,落在以X为中心,体积为V的超立方体内时,计数为1,即10
10 ② lim N N k (3-42) ③ lim 0 N N N k V (3-43) 则总体概率密度的估计值收敛于实际值 p X( )。 上述条件中,条件①保证了空间平均式的收敛性;条件②保证了频数比的收 敛性;条件③保证了估计式的收敛性。以上三个条件说明当 N 增大时,落入 RN 的 样本数也增加; VN 不断减少,以使 ˆ ( ) N p X 趋于 p X( ) ;尽管在一个小区域 RN 中 落入了大量的样本,但它的数目与样本总数相比还是可以忽略的。满足上述三个条 件的区域序列主要有两种选择方法: (1)Parzen 窗函数法:选定一个中心在 X 处的区域 RN ,其体积为 VN 以 N 的 某个函数(例如, 1/ V N N )的关系不断缩小,同时需对 N k 和 / N k N 加以限制, 以使 ˆ ( ) N p X 收敛于 p X( ) ,然后计算落入 RN 的样本数 N k ,用来估计局部密度 ˆ ( ) N p X 的值。 (2) N k 近邻法:令 N k 为 N 的某个函数 (例如, N k N ),以 X 为中心构造一 个体积为 VN 的区域 RN ,使 RN 恰好包含 N k 个样本,用这时的体积来估计 ˆ ( ) N p X 的 值。 3.4.2 Parzen 窗法 假设区域 RN 为 d 维超立方体,向量 X 为 d 维特征空间中的一个点,超立方体 RN 以原点为中心,侧棱长为 N h ,则其体积 VN 为 d V h N N (3-44) 为了计算 RN 中包含的样本数 N k ,定义 d 维空间的基本窗函数 1 1, , 1,2,., ( ) 2 0, others j u j d u (3-45) 其中, 1 2 3 ( , , , , ) d u u u u u ,( ) u 称为 Parzen 窗函数,它是以原点为中心的超 立方体。利用函数 ( ) u 可以实现对落在区域 RN 的样本进行计数,当 Xi 落在以 X 为中心,体积为 VN 的超立方体内时,计数为 1,即
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 武汉理工大学:《模式识别》课程授课教案(讲义)第2章 贝叶斯决策理论.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第1章 绪论.pdf
- 武汉理工大学:《模式识别》课程教学大纲 Pattern Recognition(研究生).pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第56讲 推荐系统简介.pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第55讲 Lucene信息检索平台.pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第54讲 Web信息检索简介.pdf
- 《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第57讲 Mahout数据挖掘平台.pdf
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第53讲 无线网状网.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第52讲 Adhoc及WSN.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第50讲 无线局域网与802.11协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第九章 无线网络 第51讲 无线城域网及个人区域网.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第47讲 通信方式与传输介质.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第48讲 数据速率与多路复用.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第46讲 物理层概念及编码.doc
- 《高性能计算机网络》课程教学课件(讲义)第八章 物理层 第49讲 同步光纤网.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第39讲 链路层协议BSC及HDLC.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第40讲 滑动窗口协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第41讲 PPP协议.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第38讲 数据链路层及差错控制.doc
- 《高性能计算机网络》课程教学课件(讲义)第七章 数据链路层 第45讲 以太网组网与网桥.doc
- 武汉理工大学:《模式识别》课程授课教案(讲义)第4章 非参数判别分类方法.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第5章 聚类分析.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第6章 特征提取与选择.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第7章 模糊模式识别.pdf
- 武汉理工大学:《模式识别》课程授课教案(讲义)第8章 神经网络在模式识别中的应用.pdf
- 武汉理工大学:《模式识别》课程教学资源(实验指导,共五个实验).pdf
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第8章 神经网络模式识别法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第5章 特征选择与特征提取.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第6章 句法模式识别.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第7章 模糊模式识别法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第3章 判别函数及几何分类法.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第1章 绪论、第2章 聚类分析.ppt
- 武汉理工大学:《模式识别》课程教学资源(PPT课件)第4章 基于统计决策的概率分类法.ppt
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 5 Out of Order Execution.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 6 Memory Hierarchy and Cache.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 4 Spectualtive Execution.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 7 Multiprocessors.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 2 Instruction Set Architecture(Microarchitecture Implementation).pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 3 Pipelining.pdf
- 《现代计算机体系结构》课程教学课件(留学生版)Lecture 0 Introduction and Performance Evaluation.pdf
