电子科技大学：《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源（课件讲稿）第八讲数据表示——含参模型

点击下载完整版文档（PDF）

文档信息

资源类别：文库
文档格式：PDF
文档页数：57
文件大小：359.4KB
团购合买：点击进入团购

内容简介

1 概率密度估计 2 最大似然估计例 1 均值和方差的无偏与有偏估计什么是高斯分布 ML 的全局最优？二元函数局部最优条件例 2 3 最大后验概率估计例 3 4 贝叶斯估计例 4 5 期望最大化 EM EM 在高斯混合模型中的应用

刷新页面文档预览

统计学习理论及应用第八讲数据表示-含参模型编写：文泉、陈娟电子科技大学计机科学与工程学院

统计学习理论及应用第八讲数据表示-含参模型编写：文泉、陈娟电子科技大学计算机科学与工程学院

目录 ·例2 概率密度估计最大后验概率估计 2 最大似然估计 ·例3 。例1 贝叶斯估计 ·均值和方差的无偏与有偏估计。例4 ·什么是高斯分布ML的期望最大化EM 全局最优？ ●EM在高斯混合模型中 ·二元函数局部最优条件的应用 1/56

目录 1 概率密度估计 2 最大似然估计例 1 均值和方差的无偏与有偏估计什么是高斯分布 ML 的全局最优？二元函数局部最优条件例 2 3 最大后验概率估计例 3 4 贝叶斯估计例 4 5 期望最大化 EM EM 在高斯混合模型中的应用 1 / 56

8.1.概率密度估计(Density Estimation) 一些基本概念 Density estimation:estimating the probability density function p(x)based on a given set of training samples D={x1,x2,,Xw}. Estimated density:denoted by p(x). Training samples are i.i.d.and distributed according to p(x): Parametric estimation:parameter vector 0 of p(x; Non-parametric estimation:a function p:F->R O Finite number of training samples meaning that there will be some errors in the function (density)estimation 2/56

8.1. 概率密度估计 (Density Estimation) 一些基本概念 1 Density estimation: estimating the probability density function p(x) based on a given set of training samples D = {x1, x2, ..., xN}. 2 Estimated density: denoted by pˆ(x). 3 Training samples are i.i.d. and distributed according to p(x). 4 Parametric estimation: parameter vector θ of p(x; θ) 5 Non-parametric estimation: a function p : F −→ R 6 Finite number of training samples meaning that there will be some errors in the function (density) estimation. 2 / 56

含参模型估计概率是已知总体分布形式（即函数形式）但实际情况，我们对分布其实是一无所知的，不含参模型可以应用于任何概率分布的场合，无需假定概率分布的形式是已知。 3/56

含参模型估计概率是已知总体分布形式 (即函数形式) 但实际情况，我们对分布其实是一无所知的，不含参模型可以应用于任何概率分布的场合，无需假定概率分布的形式是已知。 3 / 56

8.2.最大似然估计Maximun Likelihood 给定一个M类(w1,w2,,w)的分类任务和一个用特征向量x表示的样本，生成M个条件概率P(w,x),其中： p(wix)=e(xhp( p(x), px)=∑pxhw,lpw,) 如果： p(wlx)>p(wlx),≠i 则x属于w,类。称为贝叶斯决策(Bayes Decision Rule)。它强调了后验概率。 4/56

设x1,x2,,xw是从概率密度函数P(x;)中抽取的样本， X={x1,2,,xw},假定样本之间具有统计独立性，则 p(X9)=p(x1,x2,,xw;0)=Π=p(xk;) 是关于0的似然函数。用最大似然法估计参数9： 0Mu=arg maxΠ1p(xk;). 即使得 ∂I=1p(xk; 2=0 08 5/56

设 x1, x2, ..., xN 是从概率密度函数 P(x; θ) 中抽取的样本， X = {x1, x2, ..., xN} ，假定样本之间具有统计独立性，则: p(X; θ) = p(x1, x2, ..., xN; θ) = ΠN k=1p(xk ; θ) 是关于 θ 的似然函数。用最大似然法估计参数 θ: ˆθML = arg max θ Π N k=1 p(xk ; θ). 即使得 ∂ΠN k=1 p(xk ; θ) ∂θ = 0 5 / 56

利用对数函数的单调性，定义对数似然函数为： L(e)=lnΠ1p(xk;) 则上式等价于： OIIp(xx:0) aL( 2= 1 p(xx;0) 00 :) 00 以上解可能为全局或局部的最大或最小，或者是鞍部，有时需要进一步确认。 6/56

利用对数函数的单调性，定义对数似然函数为： L(θ) = ln Π N k=1p(xk ; θ) 则上式等价于： ∂ΠN k=1p(xk ; θ) ∂θ = 0 ⇔ ∂L(θ) ∂θ = X N k=1 1 p(xk ; θ) ∂p(xk ; θ) ∂θ = 0 以上解可能为全局或局部的最大或最小，或者是鞍部，有时需要进一步确认。 6 / 56

8.2.1.例1 例1：假设均值μ和方差σ2未知的一维高斯概率密度函数，生成N个样本点x1,x2,,w,求出均值，方差的最大似然估计。对数似然函数定义为：的=nae的=n2am(吗或： u=-2-2aa- 7/56

8.2.1. 例 1 例 1：假设均值 µ 和方差 σ 2 未知的一维高斯概率密度函数，生成 N 个样本点 x1, x2, ..., xN，求出均值，方差的最大似然估计。对数似然函数定义为： L(µ, σ2 ) = lnY N k=1 p(xk ; µ, σ2 ) = lnY N k=1 1 √ 2π √ σ 2 exp(− (xk − µ) 2 2σ 2 ) 或： L(µ, σ2 ) = − N 2 ln(2πσ2 ) − 1 2σ 2 X N k=1 (xk − µ) 2 7 / 56

)对“求导，并令导数为0，可得：立=官 (2)对σ2求导，可得解： N 0+-=0 可以得到：品-∑- 8/56

(1) 对 µ 求导，并令导数为 0，可得：µˆ = 1 N P N k=1 xk (2) 对 σ 2 求导, 可得解： − N 2σ 2 + 1 2σ 4 X N k=1 (xk − µ) 2 = 0 可以得到： σˆ 2 ML = 1 N X N k=1 (xk − µˆ) 2 8 / 56

8.2.2.均值和方差的无偏与有偏估计对于有限的N来讲， (1)上面的均值估计是均值的无偏估计： (2)上面的方差估计是方差的有偏估计： =呢∑-明]=∑-的-"，2 当N值很大的时候：(1一)o2≈σ2 9/56

8.2.2. 均值和方差的无偏与有偏估计对于有限的 N 来讲， (1) 上面的均值估计是均值的无偏估计： E[ˆµ] = E " 1 N X N k=1 xk # = 1 N X N k=1 E [xk ] = µ (2) 上面的方差估计是方差的有偏估计： E[ˆσ 2 ML] = E[ 1 N X N k=1 (xk − µˆ) 2 ] = 1 N X N k=1 E[(xk − µˆ) 2 ] = N − 1 N σ 2 当 N 值很大的时候：(1 − 1 N )σ 2 ≈ σ 2 9 / 56

共57页，可试读19页，点击继续阅读 ↓

刷新页面下载完整文档

VIP每日下载上限内不扣除下载券和下载次数；
按次数下载不扣除下载券；
注册用户24小时内重复下载只扣除一次；
顺序：VIP每日次数-->可用次数-->下载券；

点击下载完整版文档（PDF）

电子科技大学：《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源（课件讲稿）第八讲 数据表示——含参模型

电子科技大学：《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源（课件讲稿）第八讲数据表示——含参模型