广东工业大学:《机器学习》课程教学资源(课件讲义)第9讲 神经网络的优化(损失函数)

神经网络优化 1
神经网络优化 1

Outline ·6.1信息熵 ·6.2模型优化中的目标函数 ·6.3模型优化中常用的经验损失函数 哈尔滨工业大学计算机学院刘远超 2
Outline • 6.1信息熵 • 6.2 模型优化中的⽬标函数 • 6.3 模型优化中常⽤的经验损失函数 哈尔滨工业大学计算机学院 刘远超 2

信息论中的熵(entropy) ●热力学中的熵:是表示分子状态混乱程度 的物理量 ·信息论中的熵:用来描述信源的不确定性 的大小 ·经常使用的熵概念有下列几种: ·信息熵 ●交叉熵 ●相对熵 克劳德·艾尔伍德,香农(Claude Elwood Shannon 1916年4月30日一2001年2月24日)是美国数学家、 ●条件熵 信息论的创始人。1936年获得密歇根大学学士学 位。1940年在麻省理工学院获得硕士和博士学位, 1941年进入贝尔实验室工作。香农提出了信息熵的 ●互信息 概念,为信息论和数字通信奠定了基础。 哈尔滨工业大学计算机学院刘远超
信息论中的熵(entropy) l 热⼒学中的熵: 是表示分⼦状态混乱程度 的物理量 哈尔滨工业大学计算机学院 刘远超 3 l 经常使⽤的熵概念有下列⼏种: l 信息熵 l 交叉熵 l 相对熵 l 条件熵 l 互信息 克劳德·艾尔伍德·香农(Claude Elwood Shannon , 1916年4月30日—2001年2月24日)是美国数学家、 信息论的创始人。1936年获得密歇根大学学士学 位 。1940年在麻省理工学院获得硕士和博士学位, 1941年进入贝尔实验室工作。香农提出了信息熵的 概念,为信息论和数字通信奠定了基础。 l 信息论中的熵:⽤来描述信源的不确定性 的⼤⼩

信息熵 ●信源信息的不确定性函数∫通常满足两个条件: 1)是概率p的单调递减函数。 2)两个独立符号所产生的不确定性应等于各自不确定性之和,即 f(p1,p2)=f(p1)+f(p2)。 ·对数函数同时满足这两个条件:fp)=log=-1ogp ●信息熵:要考虑信源所有可能发生情况的平均不确定性。若信源符号有 n种取值:U1,…,U,Un,对应概率为p1,…,p…,卫n,且各种出现彼此 独立。此时信源的平均不确定性应当为单个符号不确定性-1ogP:的统计 平均值(),称为信息熵,即 H0=E-logl=-∑nogm=∑,nlog合 哈尔滨工业大学计算机学院刘远超 4
信息熵 l 信源信息的不确定性函数 � 通常满⾜两个条件 : 1)是概率 � 的单调递减函数。 2)两个独⽴符号所产⽣的不确定性应等于各⾃不确定性之和,即 � �!, �" = � �! +� �" 。 l 对数函数同时满⾜这两个条件:� � = ��� ! # = −��� � l 信息熵:要考虑信源所有可能发⽣情况的平均不确定性。若信源符号有 n种取值: �1 , … ,�� , … ,��,对应概率为�1, … , �� , … , ��,且各种出现彼此 独⽴。此时信源的平均不确定性应当为单个符号不确定性−log �$的统计 平均值(E),称为信息熵,即 � � = � − log �$ = −1$%! & �$����$ = 1�%� � �����( � �� ) 哈尔滨工业大学计算机学院 刘远超 4

交叉熵(cross entropy) ·定义:交叉熵是信息论中一个重要的概念,用于表征两个变量概率分布 P,Q(假设P表示真实分布,Q为模型预测的分布)的差异性。交叉熵越 大,两个变量差异程度越大。 ●交叉熵公式: .Pogc) 哈尔滨工业大学计算机学院刘远超 5
交叉熵(cross entropy) l 定义:交叉熵是信息论中一个重要的概念, 用于表征两 个变量概率分布 P, Q(假设P表示真实分布, Q为模型预测的分布)的差异性 。交叉熵越 大 , 两个变量差异程度越大。 l 交叉熵公式: � �, � = − 1 �∈� � � ���� � = 1 �∈� � � ��� � � � 哈尔滨工业大学计算机学院 刘远超 5

相对熵relative entropy) 也称为KL散度(Kullback-Leibler divergence,简称KLD)、信息散度 (information divergence)、信息增益(information gain)。 ●相对熵的定义:是交叉熵与信息熵的差值。表示用分布Q模拟真实分 布P,所需的额外信息。 ·计算公式为 Dku(PIQ)=∑P(iog( =.P()iog Q() P(x) 交叉熵 信息熵 哈尔滨工业大学计算机学院刘远超 6
相对熵(relative entropy) l 也称为KL散度(Kullback–Leibler divergence,简称KLD)、信息散度 (information divergence)、信息增益(information gain)。 l 相对熵的定义:是交叉熵与信息熵的差值。表示⽤分布Q模拟真实分 布P,所需的额外信息。 l 计算公式为 ���(�| � = 1 �∈� � � ��� � � � − 1 �∈� � � ��� � � � = 1 �∈� � � ��� �(�) �(�) 哈尔滨工业大学计算机学院 刘远超 6 交叉熵 信息熵

相对熵(relative entropy举例 ●举例:假设某字符发射器随机发出0和1两种字符。且其真实发出概率 分布为A。现在有两人的观察概率分布B与C。各个分布如下: A(0)=1/2,A(1)=1/2 B(0)=1/4,B(1)=3/4 C(0)=1/8,C(1)=7/8 则B和C哪个更接近实际分布A? ●求解过程: 用公式Du(PIQ)=∑exP(og ,则 ·Dx(4B)=log()+21g() ·D(4lC)=1og()+g(3) 结果: ■DK(AIB)=0.14, ■Dk(AIC)=0.41 哈尔滨工业大学计算机学院刘远超 7
相对熵(relative entropy)举例 l 举例:假设某字符发射器随机发出0和1两种字符。且其真实发出概率 分布为A。现在有两人的观察概率分布B与C。各个分布如下: A(0)=1/2,A(1)=1/2 B(0)=1/4,B(1)=3/4 C(0)=1/8,C(1)=7/8 则B和C哪个更接近实际分布A? 哈尔滨工业大学计算机学院 刘远超 7 l 求解过程: 用公式 �/0(�| � = ∑1∈2 � � ��� 3(1) 6(1) ,则 n �/0(�| � = ! " log !/" !/8 + ! " log( !/" 9/8 ) n �/0(�| � = ! " log !/" !/: + ! " log( !/" ;/: ) 结果: n �/0(�| � =0.14, n �/0(�| � = 0.41

相对熵的性质 ●相对熵(KL散度)有两个主要的性质: ■相对熵(KL散度)不具有对称性,即DKL(PQ)≠Dk(QIIP)。 例如 Dku(4B)=1og(份)+1g(券=-0.1438, DxL.(BIIA)=log(+log(=0.1308 即DKL(AIB)≠DK(BIA) ■相对熵具有非负性。即DK(PIQ)≥0 哈尔滨工业大学计算机学院刘远超 8
相对熵的性质 l 相对熵(KL散度)有两个主要的性质: n 相对熵(KL散度)不具有对称性,即�/0(�| � ≠ �/0(�| � 。 例如 �/0(�| � = ! " log !/" !/8 + ! " log( !/" 9/8 ) =0.1438, �/0(�| � = ! 8 log !/8 !/" + 9 8 log( 9/8 !/" ) =0.1308 即���(�| � ≠ ���(�| � n 相对熵具有非负性。 即�/0(�| � ≥ 0 哈尔滨工业大学计算机学院 刘远超 8

JS散度 ●JS散度Jensen--Shannon divergence)具有对称性: 由于KL散度不具对称性,因此S散度在KL散度的基础上进行了改进。 现有两个分布p1和p2,其S散度公式为: IS(PP2)=KL(P)+KL(P2) 哈尔滨工业大学计算机学院刘远超 9
JS散度 l JS散度(Jensen–Shannon divergence)具有对称性: 由于KL散度不具对称性,因此JS散度在KL散度的基础上进行了改进。 现有两个分布p1和p2,其JS散度公式为: ��(�!| �" = ! " ��(�!|| #!$#" " ) + ! " ��(�"| #!$#" " ) 哈尔滨工业大学计算机学院 刘远超 9

联合熵 ●联合熵(复合熵,Joint Entropy): ■用H(X,Y)表示 ■两个随机变量x,Y的联合分布的熵,形成联合熵 哈尔滨工业大学计算机学院刘远超 10
联合熵 l 联合熵 (复合熵,Joint Entropy): n 用H(X, Y)表示 n 两个随机变量X,Y的联合分布的熵, 形成联合熵 哈尔滨工业大学计算机学院 刘远超 10
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第8讲 集成学习(决策树的演化).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第7讲 集成学习(决策树).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第6讲 线性回归模型及其求解方法 Linear Regression Model and Its Solution.pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第5讲 分类问题(4.4 朴素?叶斯分类器).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第5讲 分类问题(4.3 ?持向量机 SVM).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第4讲 分类问题(4.1 分类与回归问题概述 4.2 分类性能度量?法).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第3讲 特征工程 Feature Engineering.pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第2讲 模型评估与选择.pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第1讲 机器学习概述.pdf
- 《机器学习》课程教学资源:《大语言模型》参考书籍PDF电子版 THE CHINESE BOOK FOR LARGE LANGUAGE MODELS(共十三章).pdf
- 《机器学习》课程教学资源:《Python数据科学手册》参考书籍PDF电子版(2016)Python Data Science Handbook,Essential Tools for Working with Data,Jake VanderPlas.pdf
- 《机器学习》课程教学资源:《统计学习方法》参考书籍PDF电子版(清华大学出版社,第2版,共22章,作者:李航).pdf
- 《机器学习》课程教学资源:《神经网络与深度学习》参考书籍PDF电子版 Neural Networks and Deep Learning(共十五章).pdf
- 《机器学习》课程教学资源:《机器学习》参考书籍PDF电子版(清华大学出版社,著:周志华).pdf
- 《机器学习》课程教学资源:《动手学深度学习》参考书籍PDF电子版 Release 2.0.0-beta0(共十六章).pdf
- 西北农林科技大学:《Visual Basic程序设计基础》课程教学资源(PPT课件)第07章 数据文件.ppt
- 西北农林科技大学:《Visual Basic程序设计基础》课程教学资源(PPT课件)第06章 模块化程序设计.ppt
- 西北农林科技大学:《Visual Basic程序设计基础》课程教学资源(PPT课件)第05章 编程思维与方法训练.ppt
- 西北农林科技大学:《Visual Basic程序设计基础》课程教学资源(PPT课件)第04章 数组与自定义类型.ppt
- 西北农林科技大学:《Visual Basic程序设计基础》课程教学资源(PPT课件)第03章 基本控制结构.ppt
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第9讲 神经网络的优化(梯度下降、学习率adagrad adam、随机梯度下降、特征缩放).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(batch和动量Momentum NAG).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(自适应学习率 AdaGrad RMSProp).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(梯度消失和梯度爆炸BN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(激活函数 dropout).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第11讲 感知机模型与多层感知机(前馈神经网络,DNN BP).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(卷积和池化层).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(LeNet, AlexNet, VGG和NiN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(Inception, 批量归一化和残差网络ResNet).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(目标检测,计算机视觉训练技巧).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第14讲 循环神经网络(RNN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(PCA Kmeans).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(Neighbor Embedding,LLE T-SNE).pdf
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(高级循环神经网络).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(编码器解码器,Seq2seq模型,束搜索).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第17讲 注意力机制(概述).pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第17讲 注意力机制(自注意力).pdf
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第18讲 变换器模型 Transformer.pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第18讲 变换器模型 Transformer.pdf