《机器学习》课程教学资源(PPT课件讲稿)第六章 特征降维和选择

cho6特征降维和选择 Part1特征降维
Ch 06.特征降维和选择 Part 1 特征降维

误差与维数 例子 p(x|O,)~N(μ2∑),j=1,2 P(O=P(O,) 贝叶斯误差概率 P(e)= 到μ2的马氏距离 (p1-卩2)∑(1 r增加,误差概率P(e)减小引入新的特征可使增大, 进而降低误差概率P(e) F→>∞,P(e)→0 ·假设各特征独立: x=dgn…,a)G∑
误差与维数 • 例子 • 贝叶斯误差概率 • r增加,误差概率 减小 • , • 假设各特征独立: ( | ) ( , ), 1, 2 j i p N j x μ Σ = 1 2 P P ( ) ( ) = 2 / 2 / 2 1 ( ) u r P e e du − = 2 1 1 2 1 2 ( ) ( ) t r − = − − μ μ Σ μ μ μ1 到 μ2 的马氏距离 P e( ) r → P e( ) 0 → 1 2 ( , , , ) d Σ = diag 2 2 1 2 1 d i i i i r = − = 引入新的特征可使r增大, 进而降低误差概率 P e( )

维度灾难 在实际应用中 ·当特征个数增加到某一个临界点后,继续增加反而会导 致分类器的性能变差—“维度灾难”( curse of dimensionality) 原因? ·假设的概率模型与真实模型不匹配 ·训练样本个数有限,导致概率分布的估计不准 对于高维数据,“维度灾难”使解决模式识别问 题非常困难,此时,往往要求首先降低特征向量 的维度
维度灾难 • 在实际应用中 • 当特征个数增加到某一个临界点后,继续增加反而会导 致分类器的性能变差——“维度灾难”(curse of dimensionality) • 原因? • 假设的概率模型与真实模型不匹配 • 训练样本个数有限,导致概率分布的估计不准 • …… • 对于高维数据,“维度灾难”使解决模式识别问 题非常困难,此时,往往要求首先降低特征向量 的维度

降维 降低特征向量维度的可行性 特征向量往往是包含冗余信息的! 有些特征可能与分类问题无关 特征之间存在着很强的相关性 降低维度的方法 特征组合 把几个特征组合在一起,形成新的特征 特征选择 选择现有特征集的一个子集
降维 • 降低特征向量维度的可行性 特征向量往往是包含冗余信息的! • 有些特征可能与分类问题无关 • 特征之间存在着很强的相关性 • 降低维度的方法 • 特征组合 把几个特征组合在一起,形成新的特征 • 特征选择 选择现有特征集的一个子集

降维 降维问题 线性变换s.非线性变换 ·利用类别标记(有监督)Vs.不用类别标记(无监督) ·不同的训练目标 ·最小化重构误差(主成分分析,PCA) ·最大化类别可分性(线性判别分析,LDA) 最小化分类误差(判别训练, discriminative training) 保留最多细节的投影(投影寻踪, projection pursuit) 最大限度的使各特征之间独立(独立成分分析,CA)
降维 • 降维问题 • 线性变换 vs. 非线性变换 • 利用类别标记(有监督) vs. 不用类别标记(无监督) • 不同的训练目标 • 最小化重构误差(主成分分析,PCA) • 最大化类别可分性(线性判别分析,LDA) • 最小化分类误差(判别训练,discriminative training) • 保留最多细节的投影(投影寻踪,projection pursuit) • 最大限度的使各特征之间独立(独立成分分析,ICA)

主成分分析(PcA) 用一维向量表示d维样本 ·用通过样本均值m的直线(单位向量为e)上的点表示 样本 ak唯一决定了xk 最小化平方重构误差 J(an…,an2e)=∑km+ae-x)=∑|age-(x-m) ∑ale-2∑ae(xkm)+∑|x-m k=1 a.e 2a4-2e(x-m)=0 C av=e(xr-m) (x-m)在e上的投影
主成分分析(PCA) • 用一维向量表示d维样本 • 用通过样本均值m的直线(单位向量为e)上的点表示 样本 • 最小化平方重构误差 ( ) t k k a = − e x m ˆ k k x m e = + a 2 2 1 1 1 1 2 2 2 1 1 1 ( , , , ) ( ) ( ( )) 2 ( ) n n n k k k k k k n n n t k k k k k k k J a a a a a a = = = = = = + − = − − = − − + − e m e x e x m e e x m x m k x ak 唯一决定了 ˆ k x 1 1 ( , , , ) 2 2 ( ) 0 n t k k k J a a a a = − − = e e x m (xk -m)在e上的投影

主成分分析(PcA) 用一维向量表示d维样本 Q
主成分分析(PCA) • 用一维向量表示d维样本 e ak xk m

主成分分析(PcA) 寻找e的最优方向 a=e(x4-m)J(a…,an,e)=∑alr-2ae(x4-m)+∑|4-m k=l J(e)∑a2-2∑+∑|x-m ∑e(x4-m)2+∑|x-m k=1 ∑e(x4-m)x-m)e+∑|;-m k=1 -eS+2xm s=∑(x-m)x-m) 散布矩阵( scatter matrix)
主成分分析(PCA) • 寻找e的最优方向 ( ) t k k a = − e x m 2 2 2 1 1 1 1 1 ( , , , ) 2 ( ) n n n t n k k k k k k k J a a a a = = = e e e x m x m = − − + − 2 2 2 1 1 1 1 2 2 1 1 2 1 1 2 1 ( ) 2 [ ( )] ( )( ) n n n k k k k k k n n t k k k k n n t t k k k k k n t k k J a a = = = = = = = = = − + − = − − + − = − − − + − = − + − e x m e x m x m e x m x m e x m e Se x m1 ( )( ) n t k k k= S x m x m = − − 散布矩阵(scatter matrix) = − ( 1) n C

主成分分析(PcA) 使J(e)最小的e最大化eSe 拉格朗日乘子法(约束条件ee=1) u=e'se-Ne'e-D) =2Se-2e=0 λ是S的本征值( eigenvalue) Se=he e是S的本征向量( eigenvector) e' se=dee 》最大本征值λ对应eSe的最大值 结论:e为散布矩阵最大的本征值对应的本征向量
主成分分析(PCA) • 使 最小的e最大化 • 拉格朗日乘子法(约束条件 ) • 结论:e为散布矩阵最大的本征值对应的本征向量 ( 1) t t u = − − e Se e e 1 J ( )e t e Se 2 2 0 u = − = Se e e 1 t e e = Se e = 是S的本征值(eigenvalue) e是S的本征向量(eigenvector) t t e Se e e = = 最大本征值 对应 e Se t 的最大值

主成分分析(PcA) 将一维的a扩展到d'(d≤d)维空间 用y=:2来表示x d x,=m+∑ake 最小化平方误差 Jg(e) ∑ m+>akeI-x k=1
主成分分析(PCA) • 将一维的 扩展到 维空间 • 用 来表示 • 最小化平方误差 1 ˆ d k ki i i a = x m e = + k a d d d ( ) 1 2 k k k kd a a a = y k x 2 1 1 ( ) n d d ki i k k i J a = = = + − e m e x
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 数据挖掘实现的住院病人的实时预警(PPT讲稿)Real-Time Clinical Warning for Hospitalized Patients via Data Mining.pptx
- 《PHP程序设计》教学资源(PPT课件讲稿)项目四 面向对象网站开发.ppt
- 《软件工程》课程教学资源(PPT课件讲稿)第3章 软件需求分析.ppt
- 四川大学:《操作系统 Operating System》课程教学资源(PPT课件讲稿)Chapter 3 Process Description and Control.ppt
- 随机图与复杂网络(PPT讲稿)随机演化博弈的算法研究及其在复杂网络中的应用.ppt
- 《计算机组成原理》课程教学资源(PPT课件讲稿)第四章 存储器.ppt
- 中国人民大学:《数据库系统概论 An Introduction to Database System》课程教学资源(PPT课件讲稿)第一章 绪论.ppt
- 《编译原理》课程教学资源(PPT课件讲稿)语法分析 Syntax analysis(自底向上分析 Bottom-Up Parsing).ppt
- 《计算机网络安全》课程教学资源(PPT课件讲稿)第二章 密码学技术.ppt
- 《软件工程》课程教学资源(PPT课件讲稿)第7章 软件测试.ppt
- 上海交通厌:《通信网络》课程教学资源(PPT讲稿)DELAY MODELS IN DATA NETWORKS、LITTLE’S LAW、ARRIVAL MODEL、M/M/X QUEUING MODELS.pptx
- 《高级语言程序设计》课程教学资源(试卷习题)试题四(无答案).doc
- 《计算机网络和因特网》教学资源(PPT讲稿)网络互连(概念, IP 地址, IP 路由, IP 数据报, 地址解析).ppt
- 西安交通大学:《网络与信息安全》课程PPT教学课件(网络入侵与防范)身份认证.ppt
- 《计算机基础及C语言程序设计》课程PPT教学课件(讲稿)第1章 概论.ppt
- 《SQL基础教程》课程教学资源(PPT课件讲稿)第6章 数据操作与SQL语句.ppt
- 河南中医药大学:《网络技术实训》课程教学资源(PPT课件讲稿)第一阶段 组网(主讲:路景鑫).pptx
- 南京大学:《编译原理》课程教学资源(PPT课件讲稿)第五章 语法制导的翻译.ppt
- 中国科学技术大学:《计算机体系结构》课程教学资源(PPT课件讲稿)第7章 多处理器及线程级并行.ppt
- 上海交通大学:《程序设计》课程教学资源(PPT课件讲稿)第14章 输入输出与文件.ppt
- 《C语言程序设计》课程教学资源(PPT课件讲稿)第4章 选择结构程序设计.ppt
- 苏州大学:《中文信息处理》课程教学资源(PPT课件讲稿)第二章 汉字代码体系.ppt
- 南京大学:模型检验(PPT课件讲稿)model checking.pptx
- 《单片机原理与其应用》课程教学资源(PPT课件讲稿)第8章 单片机的存储器的扩展.pptx
- 并发程序精化验证及其应用(PPT讲稿)Refinement Verification of Concurrent Programs and Its Applications.pptx
- 《计算机网络安全》课程电子教案(PPT教学课件)第一章 计算机网络安全概述.ppt
- 《Computer Networking:A Top Down Approach》英文教材教学资源(PPT课件讲稿,3rd edition)Chapter 5 Link Layer and LANs.pps
- 上海交通大学:操作系统安全(PPT课件讲稿)操作系统安全 OS Security(邹恒明).pps
- 某高校计算机专业课程教学大纲合集(汇编).pdf
- 电子科技大学:《网络安全与网络工程》课程教学资源(PPT课件讲稿)第六章 杂凑函数(主讲:聂旭云).ppt
- 中国科学技术大学:《嵌入式操作系统 Embedded Operating Systems》课程教学资源(PPT课件讲稿)第六讲 死锁及其处理.ppt
- 西华大学:《电子商务概论》课程教学资源(PPT课件讲稿)第7章 电子商务物流.ppt
- 《软件工程》课程教学资源(PPT课件讲稿)第12章 软件开发工具StarUML及其应用.ppt
- 《计算机网络》课程PPT教学课件(Windows)第09讲 DNS服务.ppt
- 中国科学技术大学:《数据结构》课程教学资源(PPT课件讲稿)第三章 线性表.pps
- 西安理工大学:面向主题的服务(PPT讲稿)综合集成支撑平台业务化——互联网信息化(平台、内容、服务).ppt
- 《数据科学》课程教学资源(PPT课件讲稿)第2章 数据预处理.ppt
- 《计算机组成原理》课程教学资源(PPT课件讲稿)第2章 运算方法和运算器.ppt
- 《数据库系统原理》课程PPT教学课件(SQLServer)第12章 并发控制.ppt
- 关键词抽取、社会标签推荐及其在社会计算中的应用.pptx