广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（损失函数）

点击下载完整版文档（PDF）

文档信息

资源类别：文库
文档格式：PDF
文档页数：25
文件大小：939.93KB
团购合买：点击进入团购

内容简介

广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（损失函数）

刷新页面文档预览

神经网络优化 1

Outline ·6.1信息熵 ·6.2模型优化中的目标函数 ·6.3模型优化中常用的经验损失函数哈尔滨工业大学计算机学院刘远超 2

Outline • 6.1信息熵 • 6.2 模型优化中的⽬标函数 • 6.3 模型优化中常⽤的经验损失函数哈尔滨工业大学计算机学院刘远超 2

信息论中的熵(entropy) ●热力学中的熵：是表示分子状态混乱程度的物理量 ·信息论中的熵：用来描述信源的不确定性的大小 ·经常使用的熵概念有下列几种： ·信息熵 ●交叉熵 ●相对熵克劳德·艾尔伍德，香农(Claude Elwood Shannon 1916年4月30日一2001年2月24日)是美国数学家、 ●条件熵信息论的创始人。1936年获得密歇根大学学士学位。1940年在麻省理工学院获得硕士和博士学位， 1941年进入贝尔实验室工作。香农提出了信息熵的 ●互信息概念，为信息论和数字通信奠定了基础。哈尔滨工业大学计算机学院刘远超

信息论中的熵(entropy) l 热⼒学中的熵: 是表示分⼦状态混乱程度的物理量哈尔滨工业大学计算机学院刘远超 3 l 经常使⽤的熵概念有下列⼏种： l 信息熵 l 交叉熵 l 相对熵 l 条件熵 l 互信息克劳德·艾尔伍德·香农（Claude Elwood Shannon ， 1916年4月30日—2001年2月24日）是美国数学家、信息论的创始人。1936年获得密歇根大学学士学位。1940年在麻省理工学院获得硕士和博士学位， 1941年进入贝尔实验室工作。香农提出了信息熵的概念，为信息论和数字通信奠定了基础。 l 信息论中的熵：⽤来描述信源的不确定性的⼤⼩

信息熵 ●信源信息的不确定性函数∫通常满足两个条件： 1)是概率p的单调递减函数。 2)两个独立符号所产生的不确定性应等于各自不确定性之和，即 f(p1,p2)=f(p1)+f(p2)。 ·对数函数同时满足这两个条件：fp)=log=-1ogp ●信息熵：要考虑信源所有可能发生情况的平均不确定性。若信源符号有 n种取值：U1,…,U,Un,对应概率为p1,…,p…,卫n,且各种出现彼此独立。此时信源的平均不确定性应当为单个符号不确定性-1ogP:的统计平均值()，称为信息熵，即 H0=E-logl=-∑nogm=∑，nlog合哈尔滨工业大学计算机学院刘远超 4

信息熵 l 信源信息的不确定性函数 � 通常满⾜两个条件： 1)是概率 � 的单调递减函数。 2)两个独⽴符号所产⽣的不确定性应等于各⾃不确定性之和，即 � �!, �" = � �! +� �" 。 l 对数函数同时满⾜这两个条件：� � = �� ! # = −�� l 信息熵：要考虑信源所有可能发⽣情况的平均不确定性。若信源符号有 n种取值: �1 , … ,�� , … ,��，对应概率为�1, … , �� , … , ��，且各种出现彼此独⽴。此时信源的平均不确定性应当为单个符号不确定性−log �$的统计平均值(E)，称为信息熵，即 � � = � − log �$ = −1$%! & �$��$ = 1�%� � ��( � �� ) 哈尔滨工业大学计算机学院刘远超 4

交叉熵(cross entropy) ·定义：交叉熵是信息论中一个重要的概念，用于表征两个变量概率分布 P,Q(假设P表示真实分布，Q为模型预测的分布)的差异性。交叉熵越大，两个变量差异程度越大。 ●交叉熵公式： .Pogc) 哈尔滨工业大学计算机学院刘远超 5

交叉熵(cross entropy) l 定义：交叉熵是信息论中一个重要的概念, 用于表征两个变量概率分布 P, Q（假设P表示真实分布, Q为模型预测的分布）的差异性。交叉熵越大 , 两个变量差异程度越大。 l 交叉熵公式： � �, � = − 1 �∈� � � �� = 1 �∈� � � �� 哈尔滨工业大学计算机学院刘远超 5

相对熵relative entropy) 也称为KL散度(Kullback-Leibler divergence,简称KLD)、信息散度 (information divergence)、信息增益(information gain)。 ●相对熵的定义：是交叉熵与信息熵的差值。表示用分布Q模拟真实分布P,所需的额外信息。 ·计算公式为 Dku(PIQ)=∑P(iog( =.P()iog Q() P(x) 交叉熵信息熵哈尔滨工业大学计算机学院刘远超 6

相对熵(relative entropy) l 也称为KL散度(Kullback–Leibler divergence，简称KLD)、信息散度 (information divergence)、信息增益(information gain)。 l 相对熵的定义：是交叉熵与信息熵的差值。表示⽤分布Q模拟真实分布P，所需的额外信息。 l 计算公式为 ��(�| � = 1 �∈� � � �� − 1 �∈� � � �� = 1 �∈� � � �� (�) �(�) 哈尔滨工业大学计算机学院刘远超 6 交叉熵信息熵

相对熵(relative entropy举例 ●举例：假设某字符发射器随机发出0和1两种字符。且其真实发出概率分布为A。现在有两人的观察概率分布B与C。各个分布如下： A(0)=1/2,A(1)=1/2 B(0)=1/4,B(1)=3/4 C(0)=1/8,C(1)=7/8 则B和C哪个更接近实际分布A? ●求解过程：用公式Du(PIQ)=∑exP(og ,则 ·Dx(4B)=log()+21g() ·D(4lC)=1og()+g(3) 结果： ■DK(AIB)=0.14, ■Dk(AIC)=0.41 哈尔滨工业大学计算机学院刘远超 7

相对熵(relative entropy)举例 l 举例：假设某字符发射器随机发出0和1两种字符。且其真实发出概率分布为A。现在有两人的观察概率分布B与C。各个分布如下： A(0)=1/2，A(1)=1/2 B(0)=1/4，B(1)=3/4 C(0)=1/8，C(1)=7/8 则B和C哪个更接近实际分布A？哈尔滨工业大学计算机学院刘远超 7 l 求解过程：用公式 �/0(�| � = ∑1∈2 � � �� 3(1) 6(1) ，则 n �/0(�| � = ! " log !/" !/8 + ! " log( !/" 9/8 ) n �/0(�| � = ! " log !/" !/: + ! " log( !/" ;/: ) 结果： n �/0(�| � =0.14, n �/0(�| � = 0.41

相对熵的性质 ●相对熵(KL散度)有两个主要的性质： ■相对熵(KL散度)不具有对称性，即DKL(PQ)≠Dk(QIIP)。例如 Dku(4B)=1og(份)+1g(券=-0.1438， DxL.(BIIA)=log(+log(=0.1308 即DKL(AIB)≠DK(BIA) ■相对熵具有非负性。即DK(PIQ)≥0 哈尔滨工业大学计算机学院刘远超 8

JS散度 ●JS散度Jensen--Shannon divergence)具有对称性：由于KL散度不具对称性，因此S散度在KL散度的基础上进行了改进。现有两个分布p1和p2,其S散度公式为： IS(PP2)=KL(P)+KL(P2) 哈尔滨工业大学计算机学院刘远超 9

JS散度 l JS散度(Jensen–Shannon divergence)具有对称性：由于KL散度不具对称性，因此JS散度在KL散度的基础上进行了改进。现有两个分布p1和p2，其JS散度公式为： ��(�!| �" = ! " ��(�!|| #!$#" " ) + ! " ��(�"| #!$#" " ) 哈尔滨工业大学计算机学院刘远超 9

联合熵 ●联合熵（复合熵，Joint Entropy): ■用H(X,Y)表示 ■两个随机变量x,Y的联合分布的熵，形成联合熵哈尔滨工业大学计算机学院刘远超 10

联合熵 l 联合熵 (复合熵，Joint Entropy)： n 用H(X, Y)表示 n 两个随机变量X，Y的联合分布的熵, 形成联合熵哈尔滨工业大学计算机学院刘远超 10

共25页，试读已结束，阅读完整版请下载

刷新页面下载完整文档

VIP每日下载上限内不扣除下载券和下载次数；
按次数下载不扣除下载券；
注册用户24小时内重复下载只扣除一次；
顺序：VIP每日次数-->可用次数-->下载券；

点击下载完整版文档（PDF）

广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲 神经网络的优化（损失函数）

广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（损失函数）