武汉理工大学：《模式识别》课程授课教案（讲义）第8章神经网络在模式识别中的应用

文档信息

资源类别：文库
文档格式：PDF
文档页数：10
文件大小：520.59KB
团购合买：点击进入团购

内容简介

第8章神经网络在模式识别中的应用模式识别系统除了对进行信息分析和处理，另一个重要的功能是对人类感知能力的模仿，也就是获取类似于人类所具有的智能识别和判断能力。而人类的智能活动的物质基础是大脑的神经系统，如果能够模拟人类大脑神经系统的工作机理，并将其应用到模式识别系统中，其识别效果可能会优于传统的模式识别方法。人工神经网络和近年来兴起的深度学习的研究正是在这方面所进行的探索。8.1人工神经网络的基础知识8.1.1人工神经网络的发展历史在近代，人工神经网络的发展已经历了大半个世纪，从20世纪40年代到21世纪，神经网络的研究经历了几起几落的发展过程。在1943年，心理学家McCulloch和数学家Pitts提出了形式神经元的数学模型，也称为MP模型，标志着人工神经网络研究的开始。1949年，心理学家Hebb在突触联系强度可变设想的基础上提出了神经元学习的准则，这一学习准则至今对神经网络理论有重要的影响。到20世纪50年代末，Rosenblatt提出了感知器模型，引起了人工神经网络研究的广泛兴趣。感知器模型已初步具备了学习、并行处理和分布存储的特征，从系统角度确立了人工神经网络的研究基础。但在1969年，Minsky等人指出了感知器的局限性，例如感知器对“异或”这样简单的非线性问题都无法求解，使人工神经网络的研究陷入了低潮。进入20世纪80年代，得益于分布式处理的神经网络的研究成果，对神经网络的研究又开始复兴。1982年，Hopfield引入了网络能量函数的概念，提出了一种神经网络的动力学模型，可以用于联想记忆和优化计算。1986年，Rumelhart等人提出了多层感知器模型，克服了感知器模型的局限性，成为目前使用最为广泛的网络模型。20世纪90年代支持向量机提出后，支持向量机与神经网络性能的优劣也成为研究的热点。2006年Hinton又提出了神经网络的深度学习算法，使神经网络的性能大幅度提高，重新掀起了神经网络研究的热潮。8.1.2生物神经元来自其它神经元轴突的神经末梢0一树突轴突突触细胞体0细胞核。神经末梢1图8.1经神元的结构示意图

第 8 章神经网络在模式识别中的应用模式识别系统除了对进行信息分析和处理，另一个重要的功能是对人类感知能力的模仿，也就是获取类似于人类所具有的智能识别和判断能力。而人类的智能活动的物质基础是大脑的神经系统，如果能够模拟人类大脑神经系统的工作机理，并将其应用到模式识别系统中，其识别效果可能会优于传统的模式识别方法。人工神经网络和近年来兴起的深度学习的研究正是在这方面所进行的探索。 8.1 人工神经网络的基础知识 8.1.1 人工神经网络的发展历史在近代，人工神经网络的发展已经历了大半个世纪，从 20 世纪 40 年代到 21 世纪，神经网络的研究经历了几起几落的发展过程。在 1943 年，心理学家 McCulloch 和数学家 Pitts 提出了形式神经元的数学模型，也称为 MP 模型，标志着人工神经网络研究的开始。1949 年，心理学家 Hebb 在突触联系强度可变设想的基础上提出了神经元学习的准则，这一学习准则至今对神经网络理论有重要的影响。到 20 世纪 50 年代末，Rosenblatt 提出了感知器模型，引起了人工神经网络研究的广泛兴趣。感知器模型已初步具备了学习、并行处理和分布存储的特征，从系统角度确立了人工神经网络的研究基础。但在 1969 年，Minsky 等人指出了感知器的局限性，例如感知器对“异或”这样简单的非线性问题都无法求解，使人工神经网络的研究陷入了低潮。进入 20 世纪 80 年代，得益于分布式处理的神经网络的研究成果，对神经网络的研究又开始复兴。1982 年，Hopfield 引入了网络能量函数的概念，提出了一种神经网络的动力学模型，可以用于联想记忆和优化计算。1986 年，Rumelhart 等人提出了多层感知器模型，克服了感知器模型的局限性，成为目前使用最为广泛的网络模型。20 世纪 90 年代支持向量机提出后，支持向量机与神经网络性能的优劣也成为研究的热点。2006 年 Hinton 又提出了神经网络的深度学习算法，使神经网络的性能大幅度提高，重新掀起了神经网络研究的热潮。 8.1.2 生物神经元来自其它神经元轴突的神经末梢细胞体轴突细胞核树突神经末梢突触图 8.1 经神元的结构示意图

一个典型的神经元（或称神经细胞）主要有细胞体，树突和轴突三部分组成，其结构如图8.1所示。细胞体是神经元的中心，负责对信号的接收和处理：树突是神经元的生物信号输入端，与其它的神经元相连；轴突是从细胞体伸展出一根长的神经纤维，它是神经元的信号输出端，连接到其它神经元的树突上。神经元有两种状态：兴奋和抑制，平时神经元都处于抑制状态，轴突没有输入：当神经元的树突输入信号大到一定程度，超过某个阈值时，神经元有抑制状态转为兴奋状态，同时轴突向其它神经元发出信号。8.1.3人工神经元XWX,JZW2WNX10图8.2人工神经元构成示意图人工神经网络的基本节点是人工神经元，其工作原理仿照生物神经元提出的，一个简化的人工神经元的结构如图8.2所示。神经元可以有N个输入x，x2，""x，每个输入端与神经元之间有的联接权值w,W2，,Wn，神经元总的输入为对每个输入的加权求和，同时减去阈值θ，即Nu=wx,-0(8.1)ial神经元的输出y是对u的映射y=f(u)=(8.2)于称为激励函数，可以有很多形式，可是为简单的线性函数，也可以是具有任意阶导数的非线性函数。当为阅值函数时，神经元就可以看作是一个线性分类器。[1,x>0f(x):(8.3)[0, x≤0当取f为Sigmoid函数时，神经元完成的是非线性映射1(8.4)(x)=1+e一个神经元的结构可以简化为下图的形式Xi/WyWX

一个典型的神经元（或称神经细胞）主要有细胞体，树突和轴突三部分组成，其结构如图 8.1 所示。细胞体是神经元的中心，负责对信号的接收和处理；树突是神经元的生物信号输入端，与其它的神经元相连；轴突是从细胞体伸展出一根长的神经纤维，它是神经元的信号输出端，连接到其它神经元的树突上。神经元有两种状态：兴奋和抑制，平时神经元都处于抑制状态，轴突没有输入；当神经元的树突输入信号大到一定程度，超过某个阈值时，神经元有抑制状态转为兴奋状态，同时轴突向其它神经元发出信号。 8.1.3 人工神经元图 8.2 人工神经元构成示意图人工神经网络的基本节点是人工神经元，其工作原理仿照生物神经元提出的，一个简化的人工神经元的结构如图 8.2 所示。神经元可以有 N 个输入 1 2 , , , N x x x ，每个输入端与神经元之间有的联接权值 1 2 , , , w w wN ，神经元总的输入为对每个输入的加权求和，同时减去阈值  ，即 1 N i i i u w x      （8.1）神经元的输出 y 是对 u 的映射   1 N i i i y f u f w x             （8.2） f 称为激励函数，可以有很多形式，可是为简单的线性函数，也可以是具有任意阶导数的非线性函数。当 f 为阈值函数时，神经元就可以看作是一个线性分类器。   1, 0 0, 0 x f x x       （8.3）当取 f 为 Sigmoid 函数时，神经元完成的是非线性映射   1 1 x f x e    （8.4）一个神经元的结构可以简化为下图的形式 y x1 x2 xN . . . w1 w2 wN  f u 1 x 2 x N x w1 w2 wN y 

图8.3人工神经元的简化模型其中输入矢量为增广矢量，最后一维x=1，用W%代替阈值。8.1.4人工神经网络的特点人工神经网络有以下几个特点（1）人工神经网络可以充分逼近任意的非线性映射关系，从理论上来讲，三层前馈网络可以逼近任意的多元非线性函数。（2）人工神经网络采用并行处理方式，使快速大量运算成为可能，有效地提高了运算效率。（3）人工神经网络具有联想记忆功能。在训练阶段，网络能够对输入端的模式信息进行记忆，并以网络权值的形式储存。在执行阶段，即使输入端的信息不完整，网络也可以经过处理，在输出端恢复出完整而准确的信息。（4）人工神经网络有很强的自学习能力，系统可以学习过程中自我完善，从而学习到不知道或不确定的系统。人工神经网络的这一特性，在预测领域有特别重要的意义。（5）人工神经网络有很强的鲁棒性和容错性，少数几个神经元的损坏，并不能破坏整个网络系统。8.2前馈神经网络前馈神经网络的神经元呈分级排列，每个神经元只接受前一级的输入，并输出到下一级，网络没有反馈。前馈神经网络的第一级为输入层，最后一级为输出层，输入层与输出层之间的各级称为隐含层。一个网络可以只包含一个隐含层，也可以包含多个隐含层。感知器就是一种常见的前馈神经网络。8.2.1感知器感知器实际上是一个两层前馈网络，第一层为输入层，只是将输入的特征值传输给下一层：第二层为计算单元，并将结果输出。图8.4表示的就是一个n输入，M输出的感知器。当感知器应用到模式识别系统，其网络结构可以由输入模式和输入类别来决定。设输入模式为n维特征向量X=[,2,x,]，则感知器的输入层应有n个神经元。若输入类别有m个，则输出层应包含m个神经元。输入层的第i个神经元与输出层的第j个神经元的连接权值为wu，则第j个神经元的输出为y=J[>Wx-e(8.5)

图 8.3 人工神经元的简化模型其中输入矢量为增广矢量，最后一维 1 N x  ，用 wN 代替阈值  。 8.1.4 人工神经网络的特点人工神经网络有以下几个特点（1）人工神经网络可以充分逼近任意的非线性映射关系，从理论上来讲，三层前馈网络可以逼近任意的多元非线性函数。（2）人工神经网络采用并行处理方式，使快速大量运算成为可能，有效地提高了运算效率。（3）人工神经网络具有联想记忆功能。在训练阶段，网络能够对输入端的模式信息进行记忆，并以网络权值的形式储存。在执行阶段，即使输入端的信息不完整，网络也可以经过处理，在输出端恢复出完整而准确的信息。（4）人工神经网络有很强的自学习能力，系统可以学习过程中自我完善，从而学习到不知道或不确定的系统。人工神经网络的这一特性，在预测领域有特别重要的意义。（5）人工神经网络有很强的鲁棒性和容错性，少数几个神经元的损坏，并不能破坏整个网络系统。 8.2 前馈神经网络前馈神经网络的神经元呈分级排列，每个神经元只接受前一级的输入，并输出到下一级，网络没有反馈。前馈神经网络的第一级为输入层，最后一级为输出层，输入层与输出层之间的各级称为隐含层。一个网络可以只包含一个隐含层，也可以包含多个隐含层。感知器就是一种常见的前馈神经网络。 8.2.1 感知器感知器实际上是一个两层前馈网络，第一层为输入层，只是将输入的特征值传输给下一层；第二层为计算单元，并将结果输出。图 8.4 表示的就是一个 n 输入， M 输出的感知器。当感知器应用到模式识别系统，其网络结构可以由输入模式和输入类别来决定。设输入模式为 n 维特征向量 X x x x   1 2 , , , n  ，则感知器的输入层应有 n 个神经元。若输入类别有 m 个，则输出层应包含 m 个神经元。输入层的第 i 个神经元与输出层的第 j 个神经元的连接权值为 wij ，则第 j 个神经元的输出为 1 n j ij i j i y f w x            （8.5）

其中9,为第j个神经元的偏置，如果把,也看成一个权值，并令wo，=-0,，则式（8.5）可以写成更简洁的形式(8.6)对于分类问题，可定义如下判别规则[+I XEO](8.7)y,={-1 α Xe0)感知器的学习算法同前面介绍的类似，只不过现在的输出可能不止是0和1。设某一个训练样本的理想输出为（y,，yM），而实际输出为（，，jM），则权值可按如下公式进行修正(8.8)W, (t+1)=w,(t)+n(y,-j.)x其中，n为学习步长。n的取值对权值的收敛性影响很大，若n太小，收敛速度会很慢；若n太大，算法可能会出现振荡。单个神经元可以实现两类问题的线性分类，多个感知器则可以实现多类别问题的线性分类。例如图8.4中的网络，当M=4时就可以实现四类问题的分类，练时，第1类的训练样本理想输出为(1,0,0,0)，第2类的理想输出为(0,1,0,0)，第3类为(0,0,1,0),第4类为(0,0,0,1)。也就是每个神经元输出为1代表某一类别。这样的网络实际上是由拒绝区域的分类，当待识样本输入后，输出全部为0或有不止一个输出为1，则应该拒识。如果对于四个类别问题，用两个计算单元进行编码输出时，则可以做到无拒识。也就是说第1类训练样本的理想输出为(0,0)，第2类为(0,1)，第3类为(1,0)，第4类为(1,1)。x图8.4单层感知器的结构示意图图8.5多层感知器的结构示意图8.2.2多层感知器单层感知器只能解决线性可分的问题，多层感知器可以解决这一局限性，实现输入和输出之间的非线性映射。如图8.5表示的是n个输入，M个输出，若干个隐元的四层感知器。其中第1层称为输入层，第2、3层称为隐层，第4层称为输出层。在多层感知器网络中，隐层的个数可以是一个，也可以是多个，隐层神经元的输出函数通常是Sigmoid函数

其中  i 为第 j 个神经元的偏置，如果把  i 也看成一个权值，并令 w0 j j   ，则式（8.5）可以写成更简洁的形式 0 n j ij i i y f w x          （8.6）对于分类问题，可定义如下判别规则 1 1 j j j X y X            （8.7）感知器的学习算法同前面介绍的类似，只不过现在的输出可能不止是 0 和 1。设某一个训练样本的理想输出为  y y 1 , , M  ，而实际输出为  y y 1 , , M  ，则权值可按如下公式进行修正 w t w t y y x ij ij i i i      1      （8.8）其中， 为学习步长。  的取值对权值的收敛性影响很大，若  太小，收敛速度会很慢；若  太大，算法可能会出现振荡。单个神经元可以实现两类问题的线性分类，多个感知器则可以实现多类别问题的线性分类。例如图 8.4 中的网络，当 M  4 时就可以实现四类问题的分类，训练时，第 1 类的训练样本理想输出为(1,0,0,0)，第 2 类的理想输出为(0,1,0,0)，第 3 类为(0,0,1,0)，第 4 类为(0,0,0,1)。也就是每个神经元输出为 1 代表某一类别。这样的网络实际上是由拒绝区域的分类，当待识样本输入后，输出全部为 0 或有不止一个输出为 1，则应该拒识。如果对于四个类别问题，用两个计算单元进行编码输出时，则可以做到无拒识。也就是说第 1 类训练样本的理想输出为(0,0)，第 2 类为(0,1)，第 3 类为(1,0)，第 4 类为(1,1)。 x1 x2 xn y1 . yM . . . y1 . yM . x1 x2 . xn . . . 图 8.4 单层感知器的结构示意图图 8.5 多层感知器的结构示意图 8.2.2 多层感知器单层感知器只能解决线性可分的问题，多层感知器可以解决这一局限性，实现输入和输出之间的非线性映射。如图 8.5 表示的是 n 个输入， M 个输出，若干个隐元的四层感知器。其中第 1 层称为输入层，第 2、3 层称为隐层，第 4 层称为输出层。在多层感知器网络中，隐层的个数可以是一个，也可以是多个，隐层神经元的输出函数通常是 Sigmoid 函数

在感知器算法中我们实际上是在利用理想输出与实际输出之间的误差作为增量来修正权值，然而在多层感知器中，只能直接计算出输出层的误差，中间层由于不直接与外界连接，因此其误差无法直接计算，这是多层感知器学习的主要困难。解决这一问题的方法是反向传播(Back-Propogation，BP)算法，因此多层感知器网络也称为BP网络。BP算法的思想是从后向前反向逐层传播输出层的误差，以间接计算隐层的误差。算法可以分为两个阶段：第一阶段是一个正向过程，输入信息从输入层经隐层逐层计算每个经神元的输出值；第二阶段是一个反向传播过程，输出层的误差逐层向前传播，算出隐层每个神经元的误差，并用误差修正权值。从图8.5的网络结构中可以看出，多层感知器的神经元层级之间采用全连接的方式，上层的神经元的输出作为输入推送给下一层的所有神经元。若某一层的第j的神经元的输出为O,，其与上一层第i个神经元的连接权值为w，与下一层的k个神经元的连接权值为wk，则第j的神经元的输入为(8.9)net, =Zw,O其中0,为上一层第i个神经元的输出，输出O，为(8.10)O, =(net,)= f(Zw,O)设当前样本的理想输出为y，与实际输出，=O,的误差为E=Z(y,-)(8.11)权值w,对误差的影响为OE E_ omel =8,0.(8.12)Ow,Onet, Owy其中，,为局部梯度。若节点j为输出单元，则O，=，，有E =-(y,-)(net,)(8.13)8.Onet,ay,Onet,若节点j不为输出单元，则0 %(met)8, =(8.14)Onet,a0, onet, a0,下面给出BP算法的具体步骤：

在感知器算法中我们实际上是在利用理想输出与实际输出之间的误差作为增量来修正权值，然而在多层感知器中，只能直接计算出输出层的误差，中间层由于不直接与外界连接，因此其误差无法直接计算，这是多层感知器学习的主要困难。解决这一问题的方法是反向传播(Back-Propogation，BP)算法，因此多层感知器网络也称为 BP 网络。BP 算法的思想是从后向前反向逐层传播输出层的误差，以间接计算隐层的误差。算法可以分为两个阶段：第一阶段是一个正向过程，输入信息从输入层经隐层逐层计算每个经神元的输出值；第二阶段是一个反向传播过程，输出层的误差逐层向前传播，算出隐层每个神经元的误差，并用误差修正权值。从图 8.5 的网络结构中可以看出，多层感知器的神经元层级之间采用全连接的方式，上层的神经元的输出作为输入推送给下一层的所有神经元。若某一层的第 j 的神经元的输出为 Oj ，其与上一层第 i 个神经元的连接权值为 wij ，与下一层的 k 个神经元的连接权值为 wjk ，则第 j 的神经元的输入为 j ij i i net w O   （8.9）其中 Oi 为上一层第 i 个神经元的输出，输出 Oj 为   ( ) j j ij i i O f net f w O    （8.10）设当前样本的理想输出为 j y ，与实际输出 ˆ j j y O 的误差为   1 2 ˆ 2 j j i E y y    （8.11）权值 wij 对误差的影响为 j j i ij j ij E E net O w net w          （8.12）其中， j  为局部梯度。若节点 j 为输出单元，则 ˆ O y j j  ，有     ˆ ˆ ˆ j j j j j j j j E E y y y f net net y net              （8.13）若节点 j 不为输出单元，则   j j j j j j j E E E O f net net O net O              （8.14）下面给出 BP 算法的具体步骤：

1、选定所有神经元权系数的初始值；2、重复下述过程直到收敛为止；1）从前向后计算各层神经元的实际输出：1(8.15)u,-Zw,(03, J)=1+e-*2）对输出层计算增量8,：8, =(y,-)(1-)(8.16)3）从前向后计算隐层神经元的增量：8, =j,(1-)Zwk(0)0k(8.17)4）修正个神经元的权值：(8.18)W, (t+1)= W, (0)+ n8,3多层感知器网络的识别过程就相当于一个正向过程，输入信息从输入层经隐层逐层计算个单元的输出值，直到计算出输出层的输出为止。BP算法的缺点是对初始值的依赖性比较强，容易收敛到局部最小点，算法的收敛速度较慢。BP算法的改进主要有两种途径，一种是采用启发式学习方法，另一种是采用更有效的优化算法。如采用动量法降低网络对误差曲面局部细节的敏感性，能有效抑制网络陷于局部极小。8.3自组织特征映射网络生物神经学的研究发现，人的大脑皮层中神经网络的功能是分区的，每个区域完成各自的功能。记忆也是一样，一个特定区域记忆一类特殊的事务，另一个区域记忆另外一些事务。同时在记忆的过程中，相近的神经元之间共同兴奋，而对较远的神经元则存在着侧向抑制的现象。8.3.1网络结构自组织神经网络是由Kohonen提出，一般称为自组织特征映射网络(Self-OrganizingFeatureMap，SOM或SOFM)，也被称为Kohonen网络。SOM网络是一个两层网络，包括输入层和竞争层，输入层的神经元个数等于特征的维数N，竞争层包含M=mxm个神经元，组成一个方阵。输入层和竞争层之间是全互连的，竞争层的神经元之间练时存在着侧向抑制，识别时没有任何连接。自组织神经网络的结构如图8.6所示

1、选定所有神经元权系数的初始值； 2、重复下述过程直到收敛为止； 1) 从前向后计算各层神经元的实际输出： j ij i   i u w t y   ， 1 1 i j u y e    （8.15） 2) 对输出层计算增量 j  ：  j j j j j     y y y y  1  （8.16） 3) 从前向后计算隐层神经元的增量 j  ： j j j jk k 1    k     y y w t  （8.17） 4) 修正个神经元的权值： w t w t y ij ij j i     1    （8.18）多层感知器网络的识别过程就相当于一个正向过程，输入信息从输入层经隐层逐层计算个单元的输出值，直到计算出输出层的输出为止。 BP 算法的缺点是对初始值的依赖性比较强，容易收敛到局部最小点，算法的收敛速度较慢。BP 算法的改进主要有两种途径，一种是采用启发式学习方法，另一种是采用更有效的优化算法。如采用动量法降低网络对误差曲面局部细节的敏感性，能有效抑制网络陷于局部极小。 8.3 自组织特征映射网络生物神经学的研究发现，人的大脑皮层中神经网络的功能是分区的，每个区域完成各自的功能。记忆也是一样，一个特定区域记忆一类特殊的事务，另一个区域记忆另外一些事务。同时在记忆的过程中，相近的神经元之间共同兴奋，而对较远的神经元则存在着侧向抑制的现象。 8.3.1 网络结构自组织神经网络是由 Kohonen 提出，一般称为自组织特征映射网络(Self-Organizing Feature Map, SOM 或 SOFM)，也被称为 Kohonen 网络。SOM 网络是一个两层网络，包括输入层和竞争层，输入层的神经元个数等于特征的维数 N ，竞争层包含 M m m   个神经元，组成一个方阵。输入层和竞争层之间是全互连的，竞争层的神经元之间训练时存在着侧向抑制，识别时没有任何连接。自组织神经网络的结构如图 8.6 所示

图8.6自组织神经网络示意图8.3.2网络的识别过程当SOM网络训练好之后，我们希望用输出层中的某个区域对应某一类模式，当输入一个待识别模式时，计算输入特征矢量与网络中每个神经元权值之间的距离，以距离最小者作为获胜神经元，也就是兴奋程度最大的神经元，然后根据这个神经元所在的区域确定待识模式的类别。输入特征与神经元权值之间距离的计算可以采用多种形式，常用的有欧氏距离和矢量点积。采用欧氏距离时以最小值确定获胜神经元，采用矢量点积时则以最大值确定获胜神经元。令输入特征矢量为X=(,2",x），第j个神经元的权值为W,=(wiWz"ww），则有欧氏距离d,=x-w,-=2(x,-w,)(8.19)矢量点积为d,=w,X=2wx(8.20)i=l8.3.3网络的学习过程SOM网络的学习也是一个迭代的算法，在第t次迭代中要有一个以获胜神经元为中心的邻域N。（），在这个邻域内的神经元权值得到增强，邻域之外的神经元受到抑制或不增强。邻域的形状可以选择方形、圆形或多边形。下面给出网络训练算法（采用欧氏距离）：（1）初始化，随机赋值所有竞争层神经元的权值w，并且将每个神经元的权值矢量归一化单位长度，也就是W=1，确定初始的邻域N。（0)，以及学习次数T和初始学习

x1 x2 xn . . 图 8.6 自组织神经网络示意图 8.3.2 网络的识别过程当 SOM 网络训练好之后，我们希望用输出层中的某个区域对应某一类模式，当输入一个待识别模式时，计算输入特征矢量与网络中每个神经元权值之间的距离，以距离最小者作为获胜神经元，也就是兴奋程度最大的神经元，然后根据这个神经元所在的区域确定待识模式的类别。输入特征与神经元权值之间距离的计算可以采用多种形式，常用的有欧氏距离和矢量点积。采用欧氏距离时以最小值确定获胜神经元，采用矢量点积时则以最大值确定获胜神经元。令输入特征矢量为  1 2 , , ,  T X x x x  N ，第 j 个神经元的权值为  1 2 , , ,  T W w w w j j j jN  ，则有欧氏距离   1 2 2 1 N j j i ji i d X W x w             （8.19）矢量点积为 1 N T j j ij i i d W X w x     （8.20） 8.3.3 网络的学习过程 SOM 网络的学习也是一个迭代的算法，在第 t 次迭代中要有一个以获胜神经元为中心的邻域 N t g   ，在这个邻域内的神经元权值得到增强，邻域之外的神经元受到抑制或不增强。邻域的形状可以选择方形、圆形或多边形。下面给出网络训练算法（采用欧氏距离）：（1）初始化，随机赋值所有竞争层神经元的权值 wij ，并且将每个神经元的权值矢量归一化单位长度，也就是 1 Wj  ，确定初始的邻域 Ng 0 ，以及学习次数 T 和初始学习

速率0<n(0)<lX输入训练样本归一化X=（2）Ixl（3）计算训练样本X与每一个神经元之间的距离，并确定获胜神经元gd,=W()X=-Zw,(0)x(8.21)i=ld, =min(d,(8.22)（4）调整连接权值W,(0)+n(0)[x-w,(0)], jeNg (0)W (t+1)=(8.23)[W, (0),jEN,(0)(4)对连接权值进行归一化W, (t+1)W, (t+1)=(8.24)w, (t+1)(5)重复2~5的过程，全部训练样本训练一遍；(6)进行下一次选代，t=t+1，更新n()和N)，n()应该越来越小，最后变为0，N。（）的区域也应该越来越小，最后只包含一个获胜神经元。（7）重复2~7的过程，直到t=T为止。SOM网络最大的特点是可以对没有类别标签的样本进行学习，也就是可以进行聚类分析，因为经过多次迭代学习之后，相近的样本激活的胜元在空间中分布的区域相近，可以将这个区域确定为一个类别。8.4径向基神经网络--RBF径向基函数（RadialBasisFunctionNeuralNetwork，简称RBF网）神经网络是由J.Moody和C.Darken在80年代末提出的一种神经网络，由于它模拟了人脑中局部调整、相互覆盖接收域的神经网络结构，因此，RBF网络是一种局部逼近网络，它能够以任意精度逼近任意连续函数，特别适合于解决分类与回归问题。RBF神经网络有两种模型：正规化网络RN和广义网络GN。正规化网络适用于函数逼近方面的应用，而广义网络适用于解决分类问题

速率 0 0 1      ；（2）输入训练样本归一化 X X X  ；（3）计算训练样本 X 与每一个神经元之间的距离，并确定获胜神经元 g     1 N T j j ij i i d W t X w t x    （8.21） g j min  j d d  （8.22）（4）调整连接权值               , 1 , j j g j j g W t t X W t j N t W t W t j N t                 （8.23）（4）对连接权值进行归一化       1 1 1 j j j W t W t W t     （8.24）（5）重复 2~5 的过程，全部训练样本训练一遍；（6）进行下一次迭代， t t  1 ，更新  t 和 N t g   ， t 应该越来越小，最后变为 0， N t g   的区域也应该越来越小，最后只包含一个获胜神经元。（7）重复 2~7 的过程，直到 t T 为止。 SOM 网络最大的特点是可以对没有类别标签的样本进行学习，也就是可以进行聚类分析，因为经过多次迭代学习之后，相近的样本激活的胜元在空间中分布的区域相近，可以将这个区域确定为一个类别。 8.4 径向基神经网络-RBF 径向基函数（Radial Basis Function Neural Network，简称 RBF 网）神经网络是由 J.Moody 和 C.Darken 在 80 年代末提出的一种神经网络，由于它模拟了人脑中局部调整、相互覆盖接收域的神经网络结构，因此，RBF 网络是一种局部逼近网络，它能够以任意精度逼近任意连续函数，特别适合于解决分类与回归问题。RBF 神经网络有两种模型：正规化网络 RN 和广义网络 GN。正规化网络适用于函数逼近方面的应用，而广义网络适用于解决分类问题

8.4.1网络结构RBF网络的结构与多层前向网络类似，它是一种三层前向网络。其结构如图8.7所示，网络第一层为输入层由信号源节点组成，第二层为隐藏层，第三层为输出层，它对输入模式的作用做出响应。该网络将径向基函数作为隐单元的“基”构成隐含层空间，将输入矢量直接映射到隐空间。因此当RBF的中心点确定以后，这种映射关系也就确定了。而隐含层空间到输出空间的映射是线性的，即网络的输出是隐单元输出的线性加权和。从总体上看，输入到输出的映射是非线性的，而隐藏层空间到输出空间的映射是线性的，从而可以大大加快学习速度并避免局部极小问题。Φ, (lx-cll)bWeRhxX.AX,YX.bmΦ, (x-c, )输入层隐层输出层图8.7径向基神经网络的结构图8.4.2径向基函数所谓径向基函数，就是某种沿径向对称的标量函数。通常定义为空间内任一点x到某中心c之间欧式距离的单调函数，而且当神经元的输入离该中心点越远，神经元的激活程度就越低，隐节点的这一特性常被称为“局部特性”。径向基函数Φ，可以取多种形式：（1）Gaussian函数7Φ,()=e(8.25)（2）Reflectedsigmoid函数Φ,()=:(8.26)1+eo（3）逆Multiquadric函数1Φ () =(8.27)(t2 +α2)

8.4.1 网络结构 RBF 网络的结构与多层前向网络类似，它是一种三层前向网络。其结构如图 8.7 所示，网络第一层为输入层由信号源节点组成，第二层为隐藏层，第三层为输出层，它对输入模式的作用做出响应。该网络将径向基函数作为隐单元的“基”构成隐含层空间，将输入矢量直接映射到隐空间。因此当 RBF 的中心点确定以后，这种映射关系也就确定了。而隐含层空间到输出空间的映射是线性的，即网络的输出是隐单元输出的线性加权和。从总体上看，输入到输出的映射是非线性的，而隐藏层空间到输出空间的映射是线性的，从而可以大大加快学习速度并避免局部极小问题。 X1 X2 X n Y1 Y m 1 c 2 c h c 1 b mb h m W R     1 1  x c    h h  x c    输入层隐层输出层图 8.7 径向基神经网络的结构图 8.4.2 径向基函数所谓径向基函数，就是某种沿径向对称的标量函数。通常定义为空间内任一点 x 到某一中心 c 之间欧式距离的单调函数，而且当神经元的输入离该中心点越远，神经元的激活程度就越低，隐节点的这一特性常被称为“局部特性”。径向基函数 i 可以取多种形式：（1）Gaussian 函数   2 2 t i t e     （8.25）（2）Reflected sigmoid 函数   2 2 1 1 i t t e     （8.26）（3）逆 Multiquadric 函数     2 2 1 i t t      （8.27）

式中α为该基函数的方差，也称其为扩展常数（Spread）或宽度。显然，a越小，即径向基函数的宽度越小，基函数就越具有选择性。当基函数为高斯函数时，其网络输出为h(8.28)y, = Zo, expl -(2g2i=l8.4.3网络的学习过程RBF神经网络学习的参数有3个：基函数的中心C、方差（扩展函数）α，以及隐含层到输出层的权值w。当采用正归化RBF网络结构时，隐节点数即样本数，基函数的数据中心即为样本本身，参数设计只需考虑扩展常数和输出节点的权值。而当采用广义RBF网络结构时，RBF网络的学习算法应该解决的问题包括：确定网络隐节点数，确定各径向基函数的数据中心及扩展常数，以及修正输出权值。根据径向基函数中心选取方法的不同，RBF网络有多种学习方法，如梯度下降法、自组织选取中心法、随机选取中心法、有监督选取中心法和正交最小二乘法等。下面将介绍自组织选取中心的RBF神经网络学习法。此方法分为两个步骤：无监督的自组织学习阶段和有监督学习阶段。1.基于K-means聚类算法的中心学习（1）初始化：选取h个互不相同的向量作为初始聚类中心c,(i=1,2,,h)；(2）计算输入空间各样本点与聚类中心点的欧式距离X-t,(n)(k=1,2,3,.N)(i=1,2,3….I)，并将其分配到输入样本的各个聚类集合9（p=1,2,,P)中。（3）更新聚类中心：计算各个聚类集合9中训练样本的平均值，即为新的聚类中心C，当新的聚类中心不再发生变化时，这时所求得的c,即为RBF神经网络最终的基函数中心，否则返回（2），进入下一轮的中心求解。2.求解方差当RBF神经网络的基函数为高斯函数时，方差，可由下式求得0, =Cmri=1,2.....h(8.29)V2h3.最小二乘法计算隐藏层和输出层之间的权值Ch_P(a-,-l(8.30)0 = explp=1,2,P, t,2径向基神经网络可以和概率密度函数的非参数方法联系起来，有研究表明，径向基神经网络在一定意义上等同于先用非参数方法估计出样本的概率密度，然后再进行分类

式中  为该基函数的方差，也称其为扩展常数（Spread）或宽度。显然，  越小，即径向基函数的宽度越小，基函数就越具有选择性。当基函数为高斯函数时，其网络输出为 2 2 1 1 exp 2 h j ij p i i y x c              （8.28） 8.4.3 网络的学习过程 RBF 神经网络学习的参数有 3 个：基函数的中心 i c 、方差（扩展函数）  i 以及隐含层到输出层的权值 wij 。当采用正归化 RBF 网络结构时，隐节点数即样本数，基函数的数据中心即为样本本身，参数设计只需考虑扩展常数和输出节点的权值。而当采用广义 RBF 网络结构时，RBF 网络的学习算法应该解决的问题包括：确定网络隐节点数，确定各径向基函数的数据中心及扩展常数，以及修正输出权值。根据径向基函数中心选取方法的不同，RBF 网络有多种学习方法，如梯度下降法、自组织选取中心法、随机选取中心法、有监督选取中心法和正交最小二乘法等。下面将介绍自组织选取中心的 RBF 神经网络学习法。此方法分为两个步骤：无监督的自组织学习阶段和有监督学习阶段。 1. 基于 K-means 聚类算法的中心学习（1）初始化：选取 h 个互不相同的向量作为初始聚类中心 c i h i  1,2, ,  ；（2）计算输入空间各样本点与聚类中心点的欧式距离 ( ) X t n k i  ( 1,2,3, ) k N  ( 1,2,3, ) i I  ，并将其分配到输入样本的各个聚类集合 p  p P 1,2, ,  中。（3）更新聚类中心：计算各个聚类集合 p 中训练样本的平均值，即为新的聚类中心 i c ，当新的聚类中心不再发生变化时，这时所求得的 i c 即为 RBF 神经网络最终的基函数中心，否则返回（2），进入下一轮的中心求解。 2. 求解方差  i 当 RBF 神经网络的基函数为高斯函数时，方差  i 可由下式求得 max 2 i c h   i h 1,2. . （8.29） 3. 最小二乘法计算隐藏层和输出层之间的权值 2 2 max exp p i h x c c          p P i h   1, 2, , ; 1, 2. . （8.30）径向基神经网络可以和概率密度函数的非参数方法联系起来，有研究表明，径向基神经网络在一定意义上等同于先用非参数方法估计出样本的概率密度，然后再进行分类

已到末页，全文结束

刷新页面下载完整文档

VIP每日下载上限内不扣除下载券和下载次数；
按次数下载不扣除下载券；
注册用户24小时内重复下载只扣除一次；
顺序：VIP每日次数-->可用次数-->下载券；

点击下载完整版文档（PDF）

武汉理工大学：《模式识别》课程授课教案（讲义）第8章 神经网络在模式识别中的应用

武汉理工大学：《模式识别》课程授课教案（讲义）第8章神经网络在模式识别中的应用