中国高校课件下载中心 》 教学资源 》 大学文库

【人工智能】一种基于ELM-AE特征表示的谱聚类算法

文档信息
资源类别:文库
文档格式:PDF
文档页数:7
文件大小:3.61MB
团购合买:点击进入团购
内容简介
【人工智能】一种基于ELM-AE特征表示的谱聚类算法
刷新页面文档预览

第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0L:10.11992/tis.202005021 一种基于ELM-AE特征表示的谱聚类算法 王丽娟2,丁世飞' (1.中国矿业大学计算机科学与技术学院,江苏徐州221116,2.徐州工业职业技术学院信息工程学院,江苏 徐州221114) 摘要:在实际应用中,数据点中包含的冗余特征和异常值(噪声)严重影响了聚类中更显著的特征的发现,大 大降低了聚类性能。本文提出了一种基于ELM-AE(extreme learning machine as autoencoder)特征表示的谱聚类 算法(spectral clustering via extreme learning machine as autoencoder,,SC-ELM-AE)。ELM-AE通过奇异值分解学习 源数据主要特征表示,使用输出权值实现从特征空间到原输入数据的重构;再将该特征表示空间作为输入进行 谱聚类。实验表明,在5个UCI数据集验证中,SC-ELM-AE算法性能优于传统的K-Means、谱聚类等现有算 法,特别是在复杂高维数据集PEMS-SF和TDT210上,聚类平均精确度均提高30%以上。 关键词:谱聚类:特征表示;极限学习机:自编码器:极限学习机自编码器:机器学习:聚类分析:数据挖掘 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)03-0560-07 中文引用格式:王丽娟,丁世飞.一种基于ELM-4E特征表示的谱聚类算法.智能系统学报,2021,16(3):560-566. 英文引用格式:VANG Lijuan,DING Shifei..A spectral clustering algorithm based on ELM-AE feature representation[J].CAAl transactions on intelligent systems,2021,16(3):560-566. A spectral clustering algorithm based on ELM-AE feature representation WANG Lijuan'2,DING Shifei' (1.School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China;2.School of Information Engineering,Xuzhou College of Industrial Technology,Xuzhou 221114,China) Abstract:In practice,redundant features and outliers(noise)in data points heavily influence the discovery of more prominent features in clustering and significantly impair clustering performance.In this study,we propose a spectral clustering (SC)based on extreme machine learning as autoencoder(ELM-AE)feature representation(SC-ELM-AE). ELM-AE learns the principal feature representation of the source data via singular value decomposition and uses the out- put weights to realize reconstruction from feature representation space to the original input data.The reconstructed fea- ture representation space is fed to the SC as input.The experimental results show that the proposed algorithm is 30% more accurate in the average clustering than the conventional K-means,SC,and other existing algorithms in the verifica- tion of five UCI datasets,particularly on complex high-dimensional datasets,such as PEMS-SF and TDT2_10. Keywords:spectral clustering;feature representation;extreme machine learning,auto-encoder;extreme learning ma- chine as autoencoder,machine learning;clustering analysis;data mining 聚类1是一种将数据集划分为若干组或类, 简单,但缺乏处理复杂数据结构的能力,当样本 使类内相似性最大,类间相似性最小的方法。现 为凸型时,这些算法对数据的处理有较好的效 有文献提出,传统的聚类方法有k均值算法(k- 果,当样本空间为非凸时,算法容易陷入局部最 means)、FCM算法、子空间聚类等。它们虽然 优。为解决这一难题,谱聚类应运而生,它不受 样本空间形状限制,聚类结果为全局最优解。在 收稿日期:2020-05-17. 基金项目:国家自然科学基金项目(61672522.61976216):江苏 这些算法中,由于谱类算法便于实现、性能良好, 省高校哲学社会科学研究项目(2019SJA1013):江苏 高校“青蓝工程”. 已被广泛应用于图像分割、信息检索、人脸识别 通信作者:丁世飞.E-mail:dingsf@cumt.edu.cn 等领域

DOI: 10.11992/tis.202005021 一种基于 ELM-AE 特征表示的谱聚类算法 王丽娟1,2,丁世飞1 (1. 中国矿业大学 计算机科学与技术学院,江苏 徐州 221116; 2. 徐州工业职业技术学院 信息工程学院,江苏 徐州 221114) 摘 要:在实际应用中,数据点中包含的冗余特征和异常值 (噪声) 严重影响了聚类中更显著的特征的发现,大 大降低了聚类性能。本文提出了一种基于 ELM-AE (extreme learning machine as autoencoder) 特征表示的谱聚类 算法 (spectral clustering via extreme learning machine as autoencoder, SC-ELM-AE)。ELM-AE 通过奇异值分解学习 源数据主要特征表示,使用输出权值实现从特征空间到原输入数据的重构;再将该特征表示空间作为输入进行 谱聚类。实验表明,在 5 个 UCI 数据集验证中,SC-ELM-AE 算法性能优于传统的 K-Means、谱聚类等现有算 法,特别是在复杂高维数据集 PEMS-SF 和 TDT2_10 上,聚类平均精确度均提高 30% 以上。 关键词:谱聚类;特征表示;极限学习机;自编码器;极限学习机自编码器;机器学习;聚类分析;数据挖掘 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)03−0560−07 中文引用格式:王丽娟, 丁世飞. 一种基于 ELM-AE 特征表示的谱聚类算法 [J]. 智能系统学报, 2021, 16(3): 560–566. 英文引用格式:WANG Lijuan, DING Shifei. A spectral clustering algorithm based on ELM-AE feature representation[J]. CAAI transactions on intelligent systems, 2021, 16(3): 560–566. A spectral clustering algorithm based on ELM-AE feature representation WANG Lijuan1,2 ,DING Shifei1 (1. School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China; 2. School of Information Engineering, Xuzhou College of Industrial Technology, Xuzhou 221114, China) Abstract: In practice, redundant features and outliers (noise) in data points heavily influence the discovery of more prominent features in clustering and significantly impair clustering performance. In this study, we propose a spectral clustering (SC) based on extreme machine learning as autoencoder (ELM-AE) feature representation (SC-ELM-AE). ELM-AE learns the principal feature representation of the source data via singular value decomposition and uses the out￾put weights to realize reconstruction from feature representation space to the original input data. The reconstructed fea￾ture representation space is fed to the SC as input. The experimental results show that the proposed algorithm is 30% more accurate in the average clustering than the conventional K-means, SC, and other existing algorithms in the verifica￾tion of five UCI datasets, particularly on complex high-dimensional datasets, such as PEMS-SF and TDT2_10. Keywords: spectral clustering; feature representation; extreme machine learning; auto-encoder; extreme learning ma￾chine as autoencoder; machine learning; clustering analysis; data mining 聚类[1-3] 是一种将数据集划分为若干组或类, 使类内相似性最大,类间相似性最小的方法。现 有文献提出,传统的聚类方法有 k 均值算法 (k￾means)[4] 、FCM 算法[5] 、子空间聚类等。它们虽然 简单,但缺乏处理复杂数据结构的能力,当样本 为凸型时,这些算法对数据的处理有较好的效 果,当样本空间为非凸时,算法容易陷入局部最 优。为解决这一难题,谱聚类应运而生,它不受 样本空间形状限制,聚类结果为全局最优解。在 这些算法中,由于谱类算法便于实现、性能良好, 已被广泛应用于图像分割、信息检索、人脸识别 等领域。 收稿日期:2020−05−17. 基金项目:国家自然科学基金项目 (61672522,61976216);江苏 省高校哲学社会科学研究项目 (2019SJA1013);江苏 高校 “青蓝工程”. 通信作者:丁世飞. E-mail:dingsf@cumt.edu.cn. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021

第3期 王丽娟,等:一种基于ELM-AE特征表示的谱聚类算法 ·561· 谱聚类来源于图论中的最小切割问题6。众 进行聚类,NJW谱聚类算法P是一个典型的谱聚 所周知,数据通过非线性变换,将数据映射到高 类算法。下面简单介绍该方法的原理。 维特征空间后,数据将变得线性可分。因此,可 给定一组数据集X=(x1,x2,…,x),要把这些 以通过各种非线性变换,例如基于核的方法,提 数据点分成k类,使用谱聚类的一般过程是: 高高维特征空间中输入数据的特征表示能力。然 1)根据一定的相似矩阵生成方式构建样本的 而,以往的谱聚类方法一般只注重数据降维、优 相似矩阵,W中的每一项表示每一对点之间的相 化时间复杂度等,而不是进一步提高数据特征的 似性: 表示能力。在聚类任务中,数据的特征表示是至 Wis=exp(-llx;-xj)/202) 关重要的,通过反复的实验和一系列的工作,获得 式中:当i=i时,W=0。 良好的数据特征表示是提高聚类准确度的保证。 2)根据相似矩阵W计算度矩阵D,D是一个 ELM1山最初用于训练“广义”单隐层前馈神 对角矩阵,它的非零元素是W的所有行元素(或 经网络(SLFN),具有快速学习、良好的泛化能力 者列元素)的总和: 和特征表示能力,被广泛应用于各种机器学习任 d=∑ 务,如回归和分类等2。近年来,ELM已经扩展 到聚类,一般是在ELM获得的嵌入特征空间中进 3)根据D和W计算出拉普拉斯矩阵L,定义 行聚类。ELM的隐层参数选择是随机的,和输入 拉普拉斯矩阵有很多种方法。非标准化的拉普拉 数据无关,与常用的反向传播训练算法相比, 斯矩阵为 ELM最大限度地减小了训练误差和输出权的范 L=D-W 数。根据Bartlett理论I,最小化输出权值范数将 4)对L进行标准化会产生更好的聚类效果, 因此一般将拉普拉斯矩阵标准化形式表示为 产生更好的泛化能力。 自编码器(Auto Encoder AE)I61刀是深度学习 Lnom D-IPLD-IP2 还可以表示为 中的一种无监督学习方法,能够从大量数据中自 Loom=D-IWD-12 动学习到数据中的有效特征1820。传统自编码器 5)接下来计算标准化后的拉普拉斯矩阵的 就是一种在输出层重建输入数据并且结构对称的 前k个最小特征值对应的特征向量∫,将各自对 神经网络。常见的自编码器有降噪自编码器、稀 应的特征向量∫组成的矩阵按行标准化,最终组 疏自编码器、收缩自编码器和卷积自编码器等。 成n×k维的特征矩阵F; 使用自编码器进行特征提取要比特征分解快,并 6)将F中的每一行作为一个k维的样本(共 让目标值等于输入值,是一种尽可能复现输入信 n个样本),用k-means算法进行聚类得到最终聚 号的神经网络。 类结果。 基于以上启发,本文将极限学习机ELM)和 1.2极限学习机自编码器 自编码器(AE)结合起来改进谱聚类,提出了一种 极限学习机自编码器是一种既可以再现输 基于ELM-AE嵌入特征空间的谱聚类算法。 入数据也可以自行编码的神经网络方法,具有极 1相关工作 限学习机的计算速度快、精确率高等特点。与传 统的极限学习机相似,ELM-AE包含输人层、单隐 1.1谱聚类算法 含层以及输出层;不同的是,ELM-AE的输出层与 谱聚类的概念起源于谱划分,将数据聚类转 输入层相等。给定一个训练样本,ELM-AE的模 化为无向图的多路划分问题求解,尤其适用于数 型结构包括M个输入层节点、J个隐层节点和 据集非凸的情况2,2。假设数据集有n个数据 M个输出层节点。ELM-AE的隐含层输出可以用 点,目标是将所有数据点划分到c个簇中。谱聚 式(1)表示: 类2首先将数据点看作图的顶点,根据数据点成 h=g(ax+b),a'a=I,b"b=1 (1) 对相似性,先用欧氏距离计算距离矩阵,再使用 式中:a是输入层和隐含层之间的输入;b是隐含 高斯核函数将距离矩阵构造为相似矩阵并计算出 层的偏置。隐含层输出与ELM-AE的输出层之间 所对应的拉普拉斯矩阵,谱方法是基于相似拉普 的数值关系可以用式(2)表示: 拉斯矩阵的特征值和特征向量进行聚类的方法, h(xB=xT,i=l,2,…,N (2) 将这些特征向量构造为低维的特征子空间,再在 式中:B是连接隐含层和输出层的输出权值;g() 这个特征子空间上使用诸如k-means的聚类方法 是激活函数。ELM-AE的目标是通过最小化正则

谱聚类来源于图论中的最小切割问题[6-8]。众 所周知,数据通过非线性变换,将数据映射到高 维特征空间后,数据将变得线性可分。因此,可 以通过各种非线性变换,例如基于核的方法,提 高高维特征空间中输入数据的特征表示能力。然 而,以往的谱聚类方法一般只注重数据降维、优 化时间复杂度等,而不是进一步提高数据特征的 表示能力。在聚类任务中,数据的特征表示是至 关重要的,通过反复的实验和一系列的工作,获得 良好的数据特征表示是提高聚类准确度的保证。 ELM[9-11] 最初用于训练“广义”单隐层前馈神 经网络 (SLFN),具有快速学习、良好的泛化能力 和特征表示能力,被广泛应用于各种机器学习任 务,如回归和分类等[12-14]。近年来,ELM 已经扩展 到聚类,一般是在 ELM 获得的嵌入特征空间中进 行聚类。ELM 的隐层参数选择是随机的,和输入 数据无关,与常用的反向传播训练算法相比, ELM 最大限度地减小了训练误差和输出权的范 数。根据 Bartlett 理论[15] ,最小化输出权值范数将 产生更好的泛化能力。 自编码器 (Auto Encoder AE)[16-17] 是深度学习 中的一种无监督学习方法,能够从大量数据中自 动学习到数据中的有效特征[18-20]。传统自编码器 就是一种在输出层重建输入数据并且结构对称的 神经网络。常见的自编码器有降噪自编码器、稀 疏自编码器、收缩自编码器和卷积自编码器等[21]。 使用自编码器进行特征提取要比特征分解快,并 让目标值等于输入值,是一种尽可能复现输入信 号的神经网络。 基于以上启发,本文将极限学习机 (ELM) 和 自编码器 (AE) 结合起来改进谱聚类,提出了一种 基于 ELM-AE 嵌入特征空间的谱聚类算法。 1 相关工作 1.1 谱聚类算法 谱聚类的概念起源于谱划分,将数据聚类转 化为无向图的多路划分问题求解,尤其适用于数 据集非凸的情况[22-23]。假设数据集有 n 个数据 点,目标是将所有数据点划分到 c 个簇中。谱聚 类 [24] 首先将数据点看作图的顶点,根据数据点成 对相似性,先用欧氏距离计算距离矩阵,再使用 高斯核函数将距离矩阵构造为相似矩阵并计算出 所对应的拉普拉斯矩阵,谱方法是基于相似拉普 拉斯矩阵的特征值和特征向量进行聚类的方法, 将这些特征向量构造为低维的特征子空间,再在 这个特征子空间上使用诸如 k-means 的聚类方法 进行聚类,NJW 谱聚类算法[24] 是一个典型的谱聚 类算法。下面简单介绍该方法的原理。 给定一组数据集 X = (x1, x2,··· , xn) ,要把这些 数据点分成 k 类,使用谱聚类的一般过程是: W 1) 根据一定的相似矩阵生成方式构建样本的 相似矩阵, 中的每一项表示每一对点之间的相 似性: Wi j = exp(−||xi − xj)||2 /2σ 2 ) 式中:当 i = j 时, Wi j = 0。 W D D W 2) 根据相似矩阵 计算度矩阵 , 是一个 对角矩阵,它的非零元素是 的所有行元素 (或 者列元素) 的总和: dii = ∑ j wi j 3) 根据 D 和 W 计算出拉普拉斯矩阵 L ,定义 拉普拉斯矩阵有很多种方法。非标准化的拉普拉 斯矩阵为 L = D−W 4) 对 L 进行标准化会产生更好的聚类效果, 因此一般将拉普拉斯矩阵标准化形式表示为 Lnorm = D −1/2LD−1/2 还可以表示为 Lnorm=D −1/2W D−1/2 f f n×k F 5) 接下来计算标准化后的拉普拉斯矩阵的 前 k 个最小特征值对应的特征向量 ,将各自对 应的特征向量 组成的矩阵按行标准化,最终组 成 维的特征矩阵 ; 6) 将 F 中的每一行作为一个 k 维的样本 (共 n 个样本),用 k-means 算法进行聚类得到最终聚 类结果。 1.2 极限学习机自编码器 极限学习机自编码器[19] 是一种既可以再现输 入数据也可以自行编码的神经网络方法,具有极 限学习机的计算速度快、精确率高等特点。与传 统的极限学习机相似,ELM-AE 包含输入层、单隐 含层以及输出层;不同的是,ELM-AE 的输出层与 输入层相等。给定一个训练样本,ELM-AE 的模 型结构包括 M 个输入层节点、J 个隐层节点和 M 个输出层节点。ELM-AE 的隐含层输出可以用 式 (1) 表示: h = g(ax+ b), a T a = I, b T b = 1 (1) 式中: a 是输入层和隐含层之间的输入; b 是隐含 层的偏置。隐含层输出与 ELM-AE 的输出层之间 的数值关系可以用式 (2) 表示: h(xi)β = xi T , i = 1,2,··· ,N (2) 式中: β 是连接隐含层和输出层的输出权值; g(·) 是激活函数。ELM-AE 的目标是通过最小化正则 第 3 期 王丽娟,等:一种基于 ELM-AE 特征表示的谱聚类算法 ·561·

·562· 智能系统学报 第16卷 化最小二乘估计成本函数得到输出权重,其公 AE网络,计算隐藏层的输出HM-AE∈R,激活 式为 函数使用Sigmod(): miL1=6r+Sx-Hr (3) 2)使用式(3)、(4)计算ELM-AE的输出层权值; 3)使用式(⑤)计算嵌入特征EF,激活函数使 式中:C是平衡经验风险与结构风险的参数。通 用Sigmod(~); 过取L,对B的偏导数并令其等于零,则输出权值 4)得到嵌入特征样本EF=(EF,EF2,…,EF), 矩阵B为 初始化高斯相似度函数的参数σ,k个聚类; N≥J 5)在EF样本空间上,使用高斯相似度函数 (4) G(x,y)=exp(-f(Bx)-f(Bx)/2c2)构造相似 V<J 度矩阵S∈Rw,当i=j时,S=G(EF,EF,否则 Sy=0; 2ELM-AE特征空间的谱聚类算法 6)构造归一化对称拉普拉斯矩阵Lam= 前面从理论层面分析了谱聚类及ELM-AE的 D-PSD-P,其中D是对角矩阵,其(位,)元素是S 特征提取方法。传统的谱聚类是将原始数据样本 的第i行元素的和; 作为聚类初始值,而在实际应用中数据通常冗余 7)将矩阵Lm前k个最大特征向量作为列 且复杂,能够从原始数据中充分挖掘内在信息, 构造矩阵YERxk; 通过机器学习算法进行特征学习,使用获得的数 8)归一化矩阵Y的行,得到矩阵U∈R,其 据特征空间进行谱聚类将有效提高聚类质量。 12 ELM可以随机初始化输入权重和偏置并得到相 中=y八 应的输出权重,然而随机生成的输入权值和偏差 9)利用k-means算法对矩阵U的行向量聚 会导致ELM隐层的输出不能很好地代表原始样 类,得到k个簇。 本的特征。ELM-AE是一种能够重建输入信号的 人工神经网络算法,和自动编码器一样,ELM-AE 开始 无需迭代可以获得原始样本的主要特征,与传统 的ELM不同的是,ELM-AE通过选择随机权重和 随机偏差正交,可以获得更高的性能。通过ELM-AE 输人数据集X参数a,b 的输出B实现从特征空间到原始输入数据的转 换,使得输出数据等于输入数据。 通过ELM-AE模型学习 本文提出的基于ELM-AE嵌入特征空间的谱 获得隐层输人权重B 聚类是将ELM-AE的特征空间作为聚类原始值, 从而提高聚类性能。SC-ELM-AE模型包含输人 使用式(⑤),计算嵌 入特征空间EF 层、单隐层和输出层,其模型结构如图1,也具有 M个输入层节点,J个隐藏层节点和M个输出层 节点,然后如图所示通过ELM-AE获得输出层权 通过ELM-AE模型 获得输出层权重阝 值B,ELM-AE输出层的嵌入特征(embedding fea- ture,EF)可由式(⑤)计算: 基于特征空间EF构造相似矩阵, EF=f(XBT) (5) 计算归一化拉普拉斯矩阵并计算 前k个特征向量,得到矩阵U 然后采用归一化谱聚类算法将ELM-AE的嵌 入特征(EF)作为聚类输入数据点进行聚类。SC 使用k-means对矩阵U 收敛 ELM-AE算法流程如图1所示。基于ELM-AE嵌 的行向量进行聚类 将EF的N个 入特征空间的谱聚类算法(SC-ELM-AE)流程详 样本分配至 见算法1。 k个簇 更新k个中心 算法1基于ELM-AE嵌入特征空间的谱聚类 结束 输入数据集样本(x1,2,…,x),参数a和b: 输出基于EF空间的N个样本的k个簇。 图1SC-ELM-AE算法流程 I)初始化由N个隐藏层神经元组成的ELM Fig.1 Flow of SC-ELM-AE algorithm

化最小二乘估计成本函数得到输出权重,其公 式为 min β L1 = 1 2 ∥β∥ 2 + C 2 ∥X− Hβ∥ 2 (3) L1 β β 式中:C 是平衡经验风险与结构风险的参数。通 过取 对 的偏导数并令其等于零,则输出权值 矩阵 为 β =    ( I C + HTH )−1 HTX, N ⩾ J H T ( I C + HHT )−1 X, N < J (4) 2 ELM-AE 特征空间的谱聚类算法 前面从理论层面分析了谱聚类及 ELM-AE 的 特征提取方法。传统的谱聚类是将原始数据样本 作为聚类初始值,而在实际应用中数据通常冗余 且复杂,能够从原始数据中充分挖掘内在信息, 通过机器学习算法进行特征学习,使用获得的数 据特征空间进行谱聚类将有效提高聚类质量。 ELM 可以随机初始化输入权重和偏置并得到相 应的输出权重,然而随机生成的输入权值和偏差 会导致 ELM 隐层的输出不能很好地代表原始样 本的特征。ELM-AE 是一种能够重建输入信号的 人工神经网络算法,和自动编码器一样,ELM-AE 无需迭代可以获得原始样本的主要特征,与传统 的 ELM 不同的是,ELM-AE 通过选择随机权重和 随机偏差正交,可以获得更高的性能。通过 ELM-AE 的输出 β 实现从特征空间到原始输入数据的转 换,使得输出数据等于输入数据。 本文提出的基于 ELM-AE 嵌入特征空间的谱 聚类是将 ELM-AE 的特征空间作为聚类原始值, 从而提高聚类性能。SC-ELM-AE 模型包含输入 层、单隐层和输出层,其模型结构如图 1,也具有 M 个输入层节点,J 个隐藏层节点和 M 个输出层 节点,然后如图所示通过 ELM-AE 获得输出层权 值 β,ELM-AE 输出层的嵌入特征 (embedding fea￾ture,EF) 可由式 (5) 计算: EF = f ( Xβ T ) (5) 然后采用归一化谱聚类算法将 ELM-AE 的嵌 入特征 (EF) 作为聚类输入数据点进行聚类。SC￾ELM-AE 算法流程如图 1 所示。基于 ELM-AE 嵌 入特征空间的谱聚类算法 (SC-ELM-AE) 流程详 见算法 1。 算法 1 基于 ELM-AE 嵌入特征空间的谱聚类 输入 数据集样本 (x1, x2,··· , xn) ,参数 a 和 b; 输出 基于 EF 空间的 N 个样本的 k 个簇。 1) 初始化由 N 个隐藏层神经元组成的 ELM￾HELM−AE ∈ R n×n Sigmod(·) AE 网络,计算隐藏层的输出 ,激活 函数使用 ; 2) 使用式 (3)、(4) 计算 ELM-AE 的输出层权值; Sigmod(·) 3) 使用式 (5) 计算嵌入特征 EF,激活函数使 用 ; EF = (EF1,EF2,··· ,EFn) σ 4) 得到嵌入特征样本 , 初始化高斯相似度函数的参数 ,k 个聚类; EF G(x, y) = exp( − f ( β T xi ) − f ( β T xj ) 2 ) /2σ 2 ) S ∈ R n×n i = j Si j = G ( EFi ,EFj ) Si j = 0 5) 在 样本空间上,使用高斯相似度函数 构造相似 度矩阵 ,当 时, ,否则 ; Lnorm = D −1/2SD−1/2 D (i, j) S 6 ) 构造归一化对称拉普拉斯矩阵 ,其中 是对角矩阵,其 元素是 的第 i 行元素的和; Lnorm Y ∈ R n×k 7) 将矩阵 前 k 个最大特征向量作为列 构造矩阵 ; Y U ∈ R n×k ui j = yi j/   ∑ k y 2 ik   1/2 8) 归一化矩阵 的行,得到矩阵 ,其 中 ; 9) 利用 k-means 算法对矩阵 U 的行向量聚 类,得到 k 个簇。 开始 输入数据集 X, 参数 a,b 通过 ELM-AE 模型学习 获得隐层输入权重 β 使用式 (5), 计算嵌 入特征空间 EF 通过 ELM-AE 模型 获得输出层权重 β 基于特征空间 EF 构造相似矩阵, 计算归一化拉普拉斯矩阵并计算 前 k 个特征向量, 得到矩阵 U 使用 k-means 对矩阵U 的行向量进行聚类 更新 k 个中心 收敛 N Y 将 EF 的 N 个 样本分配至 k 个簇 结束 图 1 SC-ELM-AE 算法流程 Fig. 1 Flow of SC-ELM-AE algorithm ·562· 智 能 系 统 学 报 第 16 卷

第3期 王丽娟,等:一种基于ELM-AE特征表示的谱聚类算法 ·563· 3 实验结果与分析 SC和SC-EF-ELM中,核函数为高斯核函数,其中 高斯核函数的参数为样本间的中值距离。 3.1实验环境及数据集说明 3.2性能指标 为了验证基于ELM-AE嵌入特征空间的谱聚 假设数据集X={x1,x2,…,x山,通过聚类划分 类算法的有效性,选取了UCI机器学习数据库中 得到类簇C={C,C2,…,C},真实的类划分为 的5个常用数据集进行验证测试,数据集的基本 C={C1,C2…,C,同时,令Y和Y分别表示与 特征如表1所示。 C和C'对应的分配标签。实验中,采用F-measure 表1实验中使用的UCI数据集 (F,)、聚类准确性(cluster accuracy,ACC)和标准化 Table 1 UCI datasets used in the experiments 互信息(normalized mutual information,.NMI)这 数据集 样本数 维度 类 3个评价标准来衡量聚类结果的质量及算法的有 WDBC 569 30 效性。对于这3个评价标准,值越大,聚类性能越 Ionosphere 351 34 2 好。F表示精确率(precision)和召回率(recall)的 加权调和平均值: Isolet 7797 617 26 PEMS-SF 440 138672 7 F=(@+1)PR a2(P+R) TDT2_10 653 36771 10 当参数a=1时,就是F,指标 F,二P+R 2PR 实验在MATLAB R2016b环境下实现,运行 在Windows 10上,实验中使用的计算机CPU型 式中:P是精确率(precision)度量值;R是召回率 号为Inter(R)Core(TM)i5-8250U@1.60GHz,内存 (recall)度量值。F,综合了P和R的结果,当F,较 为8GB。本文所有实验中,ELM-AE模型包含输 大时则比较说明实验结果比较理想。 入层、输出层、隐藏层,为了方便实验,隐藏层、 ACC表示聚类结果中被正确划分的数据点 输出层的激活函数都采用sigmoid函数。 比例: 实验使用的对比算法分别为:传统谱聚类 (spectral clustering,SC)、k-means聚类、基于无监 ACC= ∑60.map0y/n 督极限学习机(unsupervised extreme learning ma- 式中:n表示数据样本的个数;当x=y时,则 chine US-ELM的K-means聚类、基于ELM-AE嵌 6(x,y)=1,否则6(x,y)=0。map)表示通过Hun- 人特征的无监督极限学习机2(unsupervised ex- garian算法将每个聚类标签映射到一个类标签, treme learning machine based on embedded features of 并且映射是最佳。 ELM-AE,US-EF-ELM)k-means聚类算法。 NMI衡量的是算法的划分质量: 本文中,k-means、SC、US-ELM和US-EF- inC ELM所有算法在数据集上运行10次,记录平均 22knc背 CAIC 结果和标准差。根据文献[20]在所有数据集上, NMI= US-ELM隐藏节点数和US-EF-ELM隐藏节点数 29ns号2ce 均设置为2000,US-ELM和US-EF-ELM的激活 =1 函数均为sigmoid函数。在SC-EF-ELM中,从 NM的值越大,聚类有效性越好。 {100、200、500、1000、2000}中选择隐藏节点个 3.3 实验结果 数,激活函数也为sigmoid函数。在US-ELM、US- 所提出的SC-ELM-AE与k-means、SC、US EF-ELM和SC-EF-ELM中,正则化参数选取范围 ELM和US-EF-ELM在5个数据集上的表现对比 为{10,103,102,10,10°,10,102,10310},在 见表2。 表2提出的SC-ELM-AE算法5个UCI数据集上的性能比较 Table 2 Performance comparison of the proposed SC-ELM-AE on five UCI datasets 数据集 评价指标 k-means SC US-ELM US-EF-ELM SC-ELM-AE F 0.8768±0.0000 0.8807±0.0000 0.7861±0.1464 0.8865±0.0014 0.8887±0.0000 WDBC ACC 0.927940.0000 0.8807±0.0000 0.8356±0.1577 0.9338±0.0008 0.9667±0.0000 NMI 0.6231±0.0000 0.6260±0.0000 0.4554±0.2542 0.6538±0.0047 0.6460±0.0000

3 实验结果与分析 3.1 实验环境及数据集说明 为了验证基于 ELM-AE 嵌入特征空间的谱聚 类算法的有效性,选取了 UCI 机器学习数据库中 的 5 个常用数据集进行验证测试,数据集的基本 特征如表 1 所示。 表 1 实验中使用的 UCI 数据集 Table 1 UCI datasets used in the experiments 数据集 样本数 维度 类 WDBC 569 30 2 Ionosphere 351 34 2 Isolet 7797 617 26 PEMS-SF 440 138 672 7 TDT2_10 653 36 771 10 实验在 MATLAB R2016b 环境下实现,运行 在 Windows 10 上,实验中使用的计算机 CPU 型 号为 Inter(R)Core(TM)i5-8250U @1.60 GHz,内存 为 8 GB。本文所有实验中,ELM-AE 模型包含输 入层、输出层、隐藏层,为了方便实验,隐藏层、 输出层的激活函数都采用 sigmoid 函数。 实验使用的对比算法分别为:传统谱聚类[25] (spectral clustering,SC)、k-means 聚类、基于无监 督极限学习机 (unsupervised extreme learning ma￾chine US-ELM) 的 K-means 聚类、基于 ELM-AE 嵌 入特征的无监督极限学习机[26] (unsupervised ex￾treme learning machine based on embedded features of ELM-AE, US-EF-ELM)k-means 聚类算法。 本文中,k-means、SC、US-ELM 和 US-EF￾ELM 所有算法在数据集上运行 10 次,记录平均 结果和标准差。根据文献 [20] 在所有数据集上, US-ELM 隐藏节点数和 US-EF-ELM 隐藏节点数 均设置为 2 000,US-ELM 和 US-EF-ELM 的激活 函数均为 sigmoid 函数。在 SC-EF-ELM 中,从 {100、200、500、1 000、2 000}中选择隐藏节点个 数,激活函数也为 sigmoid 函数。在 US-ELM、US￾EF-ELM 和 SC-EF-ELM 中,正则化参数选取范围 为{10−4, 10−3, 10−2, 10−1, 100 , 101 , 102 , 103 , 104 },在 SC 和 SC-EF-ELM 中,核函数为高斯核函数,其中 高斯核函数的参数为样本间的中值距离。 3.2 性能指标 X = {x1, x2,··· , xn} C = {C1,C2,··· ,Ck} C ′ = {C ′ 1 ,C ′ 2 ,··· ,C ′ k } Y ′ C ′ F1 F1 假设数据集 ,通过聚类划分 得到类簇 ,真实的类划分为 ,同时,令 Y 和 分别表示与 C 和 对应的分配标签。实验中,采用 F-measure ( )、聚类准确性 (cluster accuracy, ACC) 和标准化 互信息 (normalized mutual information, NMI) 这 3 个评价标准来衡量聚类结果的质量及算法的有 效性。对于这 3 个评价标准,值越大,聚类性能越 好。 表示精确率 (precision) 和召回率 (recall) 的 加权调和平均值: F = ( a 2 +1 ) PR a 2 (P+R) 当参数 a = 1 时,就是 F1 指标 F1 = 2PR P+R F1 F1 式中:P 是精确率 (precision) 度量值;R 是召回率 (recall) 度量值。 综合了 P 和 R 的结果,当 较 大时则比较说明实验结果比较理想。 ACC 表示聚类结果中被正确划分的数据点 比例: ACC = ∑N i δ(yi ,map(y ′ i ))/n δ(x, y) = 1 δ(x, y) = 0 map(·) 式中: n 表示数据样本的个数; 当 x = y 时 ,则 ,否则 。 表示通过 Hun￾garian 算法将每个聚类标签映射到一个类标签, 并且映射是最佳。 NMI 衡量的是算法的划分质量: NMI = ∑k i k∑′ j Ci ∩C ′ j log n Ci ∩C ′ j |Ci ||C ′ j | vt∑k i=1 |Ci |log |Ci | n · k∑′ j=1 |C ′ j |log |C ′ j | n NMI 的值越大,聚类有效性越好。 3.3 实验结果 所提出的 SC-ELM-AE 与 k-means、SC、US￾ELM 和 US-EF-ELM 在 5 个数据集上的表现对比 见表 2。 表 2 提出的 SC-ELM-AE 算法 5 个 UCI 数据集上的性能比较 Table 2 Performance comparison of the proposed SC-ELM-AE on five UCI datasets 数据集 评价指标 k-means SC US-ELM US-EF-ELM SC-ELM-AE WDBC F1 0.8768±0.000 0 0.8807±0.000 0 0.7861±0.146 4 0.8865±0.0014 0.8887±0.0000 ACC 0.9279±0.000 0 0.8807±0.000 0 0.8356±0.157 7 0.9338±0.0008 0.9667±0.0000 NMI 0.6231±0.000 0 0.6260±0.000 0 0.4554±0.254 2 0.6538±0.0047 0.6460±0.0000 第 3 期 王丽娟,等:一种基于 ELM-AE 特征表示的谱聚类算法 ·563·

·564· 智能系统学报 第16卷 续表2 数据集 评价指标 k-means SC US-ELM US-EF-ELM SC-ELM-AE F 0.6043±0.0097 0.5976±0.0000 0.6644±0.0560 0.6585±0.0533 0.8674±0.0000 Ionosphere ACC 0.7095±0.0068 0.7037±0.0000 0.6898±0.0904 0.6990±0.0855 0.8751±0.0000 NMI 0.1300±0.0125 0.1264±0.0000 0.1529±0.1064 0.1532±0.0906 0.4384±0.0000 F 0.5007±0.0234 0.5319±0.0151 0.5262±0.0319 0.5325±0.0231 0.6444±0.0185 Isolet ACC 0.5326±0.0308 0.5649±0.0238 0.5701±0.0362 0.5830±0.0320 0.7917±0.0230 NMI 0.7216±0.0109 0.7177±0.0093 0.7390±0.0127 0.7355±0.0101 0.7453±0.0087 F 0.3385±0.0380 0.3014±0.0266 0.3134±0.0192 0.3641±0.0287 0.4365±0.0204 PEMS SF ACC 0.3124±0.0185 0.3169±0.0222 0.3298±0.0235 0.3776±0.0371 0.6444±0.0227 NMI 0.3329±0.0376 0.3144±0.0318 0.3562±0.0159 0.3891±0.0326 0.4756±0.0110 F 0.3641±0.0287 0.3389±0.0093 0.7383±0.0865 0.7356±0.1076 0.9635±0.0407 TDT2_10 ACC 0.3776±0.0371 0.4575±0.0122 0.7423±0.0964 0.7326±0.1163 0.9684±0.0437 NMI 0.3891±0.0326 0.5114±0.0116 0.8572±0.0418 0.8609±0.0500 0.9747±0.0165 从表2中可以看出,本文所提出的SC-ELM AE算法在聚类准确率上与对比算法相比在5个 0.6 数据集上都有了较大提升。例如,对于高维数据 集PEMS-SF,本文所提算法与对比算法相比在 0.4 ACC上分别提升了33.2%、32.75%、31.46%、 02 26.68%平均提升了31.02%。 SC-ELM-AE聚类算法利用ELM-AE模型无 0 需迭代即可获得低维特征表示空间,尽可能多地 保留了原始数据集的丰富信息,使获得的聚类结 果更加准确。实验数据结果表明,本文提出的 53鱼色色e色331030050070010 SC-ELM-AE算法在进行实验的数据集上与对比 (b)SC-ELM-AE在数据集PEMS-SF上的F 算法相比聚类精度有较大的提升,这也验证了本 文所提算法的合理性和有效性。 为了验证提出的SC-ELM-AE算法在增加隐 0.6 含层节点后的表现,在实验中将ELM-AE模型结 0.4 构的隐含层节点数从100增加到2000,并在数据 集WDBC和PEMS-SF上基于ELM-AE的嵌入特 0.2 征空间进行快速谱聚类,实验结果如图2、3所示。 0.6 0.4 ≤3色色色至色331003005007001000 0.2 (C)SC-ELM-AE在数据集PEMS-SF上的NM 图2在数据集PEMS-SF上SC-ELM-AE的性能变化 Fig.2 Performances for SC-ELM-AE on dataset PEMS-SF ≤色色色色色3303050700100 从图2可以看出:将ELM-AE特征表示空间 作为谱聚类输入,从(10,103,10)中选取正则化 参数,当隐藏节点较小,ACC、F-measure和 (a)SC-ELM-AE在数据集PEMS-SF上的ACC NM1值较低。而在(10,10°,10,102,103,10选取正

从表 2 中可以看出,本文所提出的 SC-ELM￾AE 算法在聚类准确率上与对比算法相比在 5 个 数据集上都有了较大提升。例如,对于高维数据 集 PEMS-SF,本文所提算法与对比算法相比在 ACC 上分别提升了 33.2%、32.75%、31.46%、 26.68% 平均提升了 31.02%。 SC-ELM-AE 聚类算法利用 ELM-AE 模型无 需迭代即可获得低维特征表示空间,尽可能多地 保留了原始数据集的丰富信息,使获得的聚类结 果更加准确。实验数据结果表明,本文提出的 SC-ELM-AE 算法在进行实验的数据集上与对比 算法相比聚类精度有较大的提升,这也验证了本 文所提算法的合理性和有效性。 为了验证提出的 SC-ELM-AE 算法在增加隐 含层节点后的表现,在实验中将 ELM-AE 模型结 构的隐含层节点数从 100 增加到 2 000,并在数据 集 WDBC 和 PEMS-SF 上基于 ELM-AE 的嵌入特 征空间进行快速谱聚类,实验结果如图 2、3 所示。 0.6 0.4 0.2 0 10 −4 10 −3 10 −2 10 −1 10 0 10 1 10 2 10 3 10 4 ACC J C (a) SC-ELM-AE 在数据集 PEMS-SF 上的 ACC 100 300 500700 1 000 0.6 0.4 0.2 0 MMI (c) SC-ELM-AE 在数据集 PEMS-SF 上的 NMI 10 −4 10 −3 10 −2 10 −1 10 0 10 1 10 2 10 3 10 4 100 300 500700 1 000 0.6 0.4 0.2 0 ACC (b) SC-ELM-AE 在数据集 PEMS-SF 上的 F1 10 −4 10 −3 10 −2 10 −1 10 0 10 1 10 2 10 3 10 4 J C J C 100 300 500700 1 000 图 2 在数据集 PEMS-SF 上 SC-ELM-AE 的性能变化 Fig. 2 Performances for SC-ELM-AE on dataset PEMS-SF 从图 2 可以看出:将 ELM-AE 特征表示空间 作为谱聚类输入,从 (10−4,10−3,10−2) 中选取正则化 参数,当隐藏节点较小, ACC、 F-measur e 和 NMI 值较低。而在 (10−1,100 ,101 ,102 ,103 ,104 ) 选取正 续表 2 数据集 评价指标 k-means SC US-ELM US-EF-ELM SC-ELM-AE Ionosphere F1 0.604 3±0.009 7 0.597 6±0.0000 0.6644±0.0560 0.6585±0.053 3 0.8674±0.000 0 ACC 0.709 5±0.006 8 0.703 7±0.0000 0.6898±0.0904 0.6990±0.085 5 0.8751±0.000 0 NMI 0.130 0±0.012 5 0.126 4±0.0000 0.1529±0.1064 0.1532±0.090 6 0.4384±0.000 0 Isolet F1 0.500 7±0.023 4 0.531 9±0.0151 0.5262±0.0319 0.5325±0.023 1 0.6444±0.018 5 ACC 0.532 6±0.030 8 0.564 9±0.0238 0.5701±0.0362 0.5830±0.032 0 0.7917±0.023 0 NMI 0.721 6±0.010 9 0.717 7±0.0093 0.7390±0.0127 0.7355±0.010 1 0.7453±0.008 7 PEMS_SF F1 0.338 5±0.038 0 0.301 4±0.0266 0.3134±0.0192 0.3641±0.028 7 0.4365±0.020 4 ACC 0.312 4±0.018 5 0.316 9±0.0222 0.3298±0.0235 0.3776±0.037 1 0.6444±0.022 7 NMI 0.332 9±0.037 6 0.314 4±0.0318 0.3562±0.0159 0.3891±0.032 6 0.4756±0.011 0 TDT2_10 F1 0.364 1±0.028 7 0.338 9±0.0093 0.7383±0.0865 0.7356±0.107 6 0.9635±0.040 7 ACC 0.377 6±0.037 1 0.457 5±0.0122 0.7423±0.0964 0.7326±0.116 3 0.9684±0.043 7 NMI 0.389 1±0.032 6 0.511 4±0.0116 0.8572±0.0418 0.8609±0.050 0 0.9747±0.016 5 ·564· 智 能 系 统 学 报 第 16 卷

第3期 王丽娟,等:一种基于ELM-AE特征表示的谱聚类算法 ·565· 则化参数时,隐藏节点数量的变化基本不会引起 基准数据集上进行验证,实验结果与推断一致, 算法性能的波动。 也证明了所提SC-ELM-AE的性能的有效性。 4结束语 1.0 0.8 本文提出了一种通过ELM-AE特征表示空间 0.6 的谱聚类算法。它利用ELM-AE将输入的原始数 04 据集转化为数据特征表示空间,再对特征表示空 0.2 间样本集进行谱聚类,利用ELM-AE获得的特征 空间可以更好地反映出原始数据的主要信息且计 冬色告5色的的w07o0o0 算成本较低;使用ELM-AE进行特征提取,提高 了聚类的准确性。通过实验验证了本文算法在有 效性和准确性两方面优于现有的谱聚类算法,能 够快速有效地处理复杂高维数据。在未来的工作 (a)SC-ELM-AE在数据集WDBC上的ACC 中需要考虑如何在保证聚类精确的情况下进一步 提高聚类的速度以及对大规模数据的处理。 1.0 参考文献: 0.8 [1]BERKHIN P.A survey of clustering data mining tech- 0.4 niques[M]//KOGAN J,NICHOLAS C,TEBOULLE M. 0.2 Grouping Multidimensional Data.Berlin,Heidelberg: 0 Springer,,2006:25-71. [2]孙吉贵,刘杰,赵连宇,聚类算法研究J].软件学报 ≤色色色色色色331w300500700100 2008,19(1):48-61. SUN Jigui,LIU Jie,ZHAO Lianyu.Clustering algorithms J research[J].Journal of software,2008,19(1):48-61 (b)SC-ELM-AE在数据集WDBC上的F [3]刘兵.Wb数据挖掘M.俞勇,薛贵荣,韩定一,译.北 京:清华大学出版社,2011. [4]WU Junjie,LIU Hongfu,XIONG Hui,et al.K-means- 1.0 based consensus clustering:a unified view[J].IEEE trans- 0.8 actions on knowledge and data engineering,2015,27(1): 0.6 155-169. 0.4 [5]WANG Yangtao,CHEN Lihui.Multi-view fuzzy cluster- 0.2 ing with minimax optimization for effective clustering of 0 data from multiple sources[J].Expert systems with applica- 兰台色5色色色33109005007010 tions,.2017,72:457-466. [6]VAN LUXBURG U.A tutorial on spectral clustering[J]. Statistics and computing,2007,17(4):395-416. J [7]JIA Hongjie,DING Shifei,XU Xinzheng,et al.The latest (C)SC-ELM-AE在数据集WDBC上的NM research progress on spectral clustering[J].Neural comput- ing and applications,2014,24(7/8):1477-1486 图3在数据集WDBC上SC-ELM-AE的性能变化 Fig.3 Performances for SC-ELM-AE on dataset WDBC [8]蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述U.计算机科 学,2008.35(7):14-18. 从图3可以看出,本文提出的SC-ELM-AE CAI Xiaoyan,DAI Guanzhong,YANG Libin.Survey on 始终是稳定的。因此,可以推断参数的选择对算 spectral clustering algorithms[J].Computer science,2008, 法性能的影响不大,在合适的正则化参数下,采 35(7):14-18. 用很少的隐藏节点即可实现较高的聚类精度,与 [9]HUANG Guangbin,CHEN Lei,SIEW C K.Universal ap- 传统的聚类方法相比,所提出的SC-ELM-AE算 proximation using incremental constructive feedforward 法具有更强的实用性。此外,在UCI的其他3个 networks with random hidden nodes[J].IEEE transactions

则化参数时,隐藏节点数量的变化基本不会引起 算法性能的波动。 1.0 0.8 0.6 0.4 0.2 0 10 −4 10 −3 10 −2 10 −1 10 0 10 1 10 2 10 3 10 4 ACC C 1.0 0.8 0.6 0.4 0.2 0 10 −4 10 −3 10 −2 10 −1 10 0 10 1 10 2 10 3 10 4 F1 1.0 0.8 0.6 0.4 0.2 0 10 −4 10 −3 10 −2 10 −1 10 0 10 1 10 2 10 3 10 4 NMI (a) SC-ELM-AE 在数据集 WDBC 上的 ACC (b) SC-ELM-AE 在数据集 WDBC 上的 F1 (c) SC-ELM-AE 在数据集 WDBC 上的 NMI J C J C J 100 300 500 700 1 000 100 300 500 7001 000 100 300 500700 1 000 图 3 在数据集 WDBC 上 SC-ELM-AE 的性能变化 Fig. 3 Performances for SC-ELM-AE on dataset WDBC 从图 3 可以看出,本文提出的 SC-ELM-AE 始终是稳定的。因此,可以推断参数的选择对算 法性能的影响不大,在合适的正则化参数下,采 用很少的隐藏节点即可实现较高的聚类精度,与 传统的聚类方法相比,所提出的 SC-ELM-AE 算 法具有更强的实用性。此外,在 UCI 的其他 3 个 基准数据集上进行验证,实验结果与推断一致, 也证明了所提 SC-ELM-AE 的性能的有效性。 4 结束语 本文提出了一种通过 ELM-AE 特征表示空间 的谱聚类算法。它利用 ELM-AE 将输入的原始数 据集转化为数据特征表示空间,再对特征表示空 间样本集进行谱聚类,利用 ELM-AE 获得的特征 空间可以更好地反映出原始数据的主要信息且计 算成本较低;使用 ELM-AE 进行特征提取,提高 了聚类的准确性。通过实验验证了本文算法在有 效性和准确性两方面优于现有的谱聚类算法,能 够快速有效地处理复杂高维数据。在未来的工作 中需要考虑如何在保证聚类精确的情况下进一步 提高聚类的速度以及对大规模数据的处理。 参考文献: BERKHIN P. A survey of clustering data mining tech￾niques[M]//KOGAN J, NICHOLAS C, TEBOULLE M. Grouping Multidimensional Data. Berlin, Heidelberg: Springer, 2006: 25−71. [1] 孙吉贵, 刘杰, 赵连宇. 聚类算法研究 [J]. 软件学报, 2008, 19(1): 48–61. SUN Jigui, LIU Jie, ZHAO Lianyu. Clustering algorithms research[J]. Journal of software, 2008, 19(1): 48–61. [2] 刘兵. Web 数据挖掘 [M]. 俞勇, 薛贵荣, 韩定一, 译. 北 京: 清华大学出版社, 2011. [3] WU Junjie, LIU Hongfu, XIONG Hui, et al. K-means￾based consensus clustering: a unified view[J]. IEEE trans￾actions on knowledge and data engineering, 2015, 27(1): 155–169. [4] WANG Yangtao, CHEN Lihui. Multi-view fuzzy cluster￾ing with minimax optimization for effective clustering of data from multiple sources[J]. Expert systems with applica￾tions, 2017, 72: 457–466. [5] VAN LUXBURG U. A tutorial on spectral clustering[J]. Statistics and computing, 2007, 17(4): 395–416. [6] JIA Hongjie, DING Shifei, XU Xinzheng, et al. The latest research progress on spectral clustering[J]. Neural comput￾ing and applications, 2014, 24(7/8): 1477–1486. [7] 蔡晓妍, 戴冠中, 杨黎斌. 谱聚类算法综述 [J]. 计算机科 学, 2008, 35(7): 14–18. CAI Xiaoyan, DAI Guanzhong, YANG Libin. Survey on spectral clustering algorithms[J]. Computer science, 2008, 35(7): 14–18. [8] HUANG Guangbin, CHEN Lei, SIEW C K. Universal ap￾proximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE transactions [9] 第 3 期 王丽娟,等:一种基于 ELM-AE 特征表示的谱聚类算法 ·565·

·566· 智能系统学报 第16卷 on neural networks,2006,17(4):879-892 Stacked denoising autoencoders:learning useful repres- [10]ZHANG Rui,LAN Yuan,HUANG Guangbin,et al.Uni- entations in a deep network with a local denoising cri- versal approximation of extreme learning machine with terion[J].Journal of machine learning research,2010, adaptive growth of hidden nodes[J].IEEE transactions on 11(12):3371-3408. neural networks and learning systems,2012,23(2): [21]刘帅师,程曦,郭文燕,等.深度学习方法研究新进展 365-371. [).智能系统学报,2016,11(5)567-577. [11]HUANG Guangbin,ZHOU Hongming,DING Xiaojian, LIU Shuaishi,CHENG Xi,GUO Wenyan,et al.Progress et al.Extreme learning machine for regression and multi- report on new research in deep learning[J].CAAI Trans- class classification[J].IEEE transactions on systems,man, actions on intelligent systems,2016,11(5):567-577. and cybernetics,part B(cybernetics),2012,42(2): [22]李建元,周脚根,关佶红,等.谱图聚类算法研究进展 513-529 [).智能系统学报,2011,6(5):405-414. [12]DA SILVA B L S.INABA F K.SALLES E O T.et al. LI Jianyuan,ZHOU Jiaogen,GUAN Jihong,et al.A sur- Outlier Robust Extreme Machine Learning for multi-tar- vey of clustering algorithms based on spectra of graphs[J] get regression[J].Expert systems with applications,2020, CAAI transactions on intelligent systems,2011,6(5): 140:112877. 405-414. [13]ZENG Yijie,LI Yue,CHEN Jichao,et al.ELM embed- [23]FILIPPONE M,CAMASTRA F,MASULLI F,et al.A ded discriminative dictionary learning for image classific- survey of kernel and spectral methods for clustering[J]. ation[J].Neural networks,2020,123:331-342. Pattern recognition,2008,41(1):176-190. [14]WU Chao,LI Yaqian,ZHAO Zhibiao,et al.Extreme [24]NG A Y,JORDAN MI,WEISS Y.On spectral cluster- learning machine with multi-structure and auto encoding ing:analysis and an algorithm[C]//Proceedings of the 14th receptive fields for image classification[J].Multidimen- International Conference on Neural Information Pro- sional systems and signal processing,2020,31(4): cessing Systems:Natural and Synthetic.Vancouver,Brit- 1277-1298 ish Columbia,Canada:MIT Press,2001:849-856 [15]BARTLETT P L.The sample complexity of pattern clas- [25]KASUN LL C,ZHOU H,HUANG G B,et al.Represent- sification with neural networks:the size of the weights is ational learning with extreme learning machine for big more important than the size of the network[J].IEEE data[J].IEEE intelligent systems,2013,28(6):31-34. transactions on information theory,1998,44(2):525-536. [26]DING Shifei,ZHANG Nan,ZHANG Jian,et al.Unsuper- [16]HINTON G E,SALAKHUTDINOV RR.Reducing the vised extreme learning machine with representational fea- dimensionality of data with neural networks[J].Science tures[J].International journal of machine learning and cy- 2006,313(5786):504-507. bernetics,.2017,8(2):587-595 [17]BENGIO Y,YAO Li,ALAIN G,et al.Generalized de- noising auto-encoders as generative models[C]//Proceed- 作者简介: ings of the 26th International Conference on Neural In- 王丽娟,副教授,博士研究生, formation Processing Systems.Lake Tahoe,Nevada:Cur- CCF会员,主要研究方向为机器学习、 聚类分析。 ran Associates Inc.,2013:899-907. [18]BALDI P.Autoencoders,unsupervised learning and deep architectures[C]//Proceedings of the 2011 International Conference on Unsupervised and Transfer Learning workshop.Washington,USA:JMLR.org,2011:37-50. [19]袁非牛,章琳,史劲亭,等.自编码神经网络理论及应用 丁世飞,教授,博士生导师,博士, CCF杰出会员,第八届吴文俊人工智 综述).计算机学报,2019,42(1):203-230. 能科学技术奖获得者,主要研究方向 YUAN Feiniu,ZHANG Lin,SHI Jinting,et al.Theories 为人工智能与模式识别,机器学习与 and applications of auto-encoder neural networks:a liter- 数据挖掘。主持国家重点基础研究计 ature survey[J].Chinese journal of computers,2019, 划课题1项、国家自然科学基金面上 42(1):203-230. 项目3项。出版专著5部,发表学术 [20]VINCENT P.LAROCHELLE H,LAJOIE I,et al. 论文200余篇

on neural networks, 2006, 17(4): 879–892. ZHANG Rui, LAN Yuan, HUANG Guangbin, et al. Uni￾versal approximation of extreme learning machine with adaptive growth of hidden nodes[J]. IEEE transactions on neural networks and learning systems, 2012, 23(2): 365–371. [10] HUANG Guangbin, ZHOU Hongming, DING Xiaojian, et al. Extreme learning machine for regression and multi￾class classification[J]. IEEE transactions on systems, man, and cybernetics, part B (cybernetics), 2012, 42(2): 513–529. [11] DA SILVA B L S, INABA F K, SALLES E O T, et al. Outlier Robust Extreme Machine Learning for multi-tar￾get regression[J]. Expert systems with applications, 2020, 140: 112877. [12] ZENG Yijie, LI Yue, CHEN Jichao, et al. ELM embed￾ded discriminative dictionary learning for image classific￾ation[J]. Neural networks, 2020, 123: 331–342. [13] WU Chao, LI Yaqian, ZHAO Zhibiao, et al. Extreme learning machine with multi-structure and auto encoding receptive fields for image classification[J]. Multidimen￾sional systems and signal processing, 2020, 31(4): 1277–1298. [14] BARTLETT P L. The sample complexity of pattern clas￾sification with neural networks: the size of the weights is more important than the size of the network[J]. IEEE transactions on information theory, 1998, 44(2): 525–536. [15] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. [16] BENGIO Y, YAO Li, ALAIN G, et al. Generalized de￾noising auto-encoders as generative models[C]//Proceed￾ings of the 26th International Conference on Neural In￾formation Processing Systems. Lake Tahoe, Nevada: Cur￾ran Associates Inc., 2013: 899−907. [17] BALDI P. Autoencoders, unsupervised learning and deep architectures[C]//Proceedings of the 2011 International Conference on Unsupervised and Transfer Learning workshop. Washington, USA: JMLR. org, 2011: 37−50. [18] 袁非牛, 章琳, 史劲亭, 等. 自编码神经网络理论及应用 综述 [J]. 计算机学报, 2019, 42(1): 203–230. YUAN Feiniu, ZHANG Lin, SHI Jinting, et al. Theories and applications of auto-encoder neural networks: a liter￾ature survey[J]. Chinese journal of computers, 2019, 42(1): 203–230. [19] [20] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful repres￾entations in a deep network with a local denoising cri￾terion[J]. Journal of machine learning research, 2010, 11(12): 3371–3408. 刘帅师, 程曦, 郭文燕, 等. 深度学习方法研究新进展 [J]. 智能系统学报, 2016, 11(5): 567–577. LIU Shuaishi, CHENG Xi, GUO Wenyan, et al. Progress report on new research in deep learning[J]. CAAI Trans￾actions on intelligent systems, 2016, 11(5): 567–577. [21] 李建元, 周脚根, 关佶红, 等. 谱图聚类算法研究进展 [J]. 智能系统学报, 2011, 6(5): 405–414. LI Jianyuan, ZHOU Jiaogen, GUAN Jihong, et al. A sur￾vey of clustering algorithms based on spectra of graphs[J]. CAAI transactions on intelligent systems, 2011, 6(5): 405–414. [22] FILIPPONE M, CAMASTRA F, MASULLI F, et al. A survey of kernel and spectral methods for clustering[J]. Pattern recognition, 2008, 41(1): 176–190. [23] NG A Y, JORDAN M I, WEISS Y. On spectral cluster￾ing: analysis and an algorithm[C]//Proceedings of the 14th International Conference on Neural Information Pro￾cessing Systems: Natural and Synthetic. Vancouver, Brit￾ish Columbia, Canada: MIT Press, 2001: 849−856. [24] KASUN L L C, ZHOU H, HUANG G B, et al. Represent￾ational learning with extreme learning machine for big data[J]. IEEE intelligent systems, 2013, 28(6): 31–34. [25] DING Shifei, ZHANG Nan, ZHANG Jian, et al. Unsuper￾vised extreme learning machine with representational fea￾tures[J]. International journal of machine learning and cy￾bernetics, 2017, 8(2): 587–595. [26] 作者简介: 王丽娟,副教授,博士研究生, CCF 会员,主要研究方向为机器学习、 聚类分析。 丁世飞,教授,博士生导师,博士, CCF 杰出会员,第八届吴文俊人工智 能科学技术奖获得者,主要研究方向 为人工智能与模式识别,机器学习与 数据挖掘。主持国家重点基础研究计 划课题 1 项、国家自然科学基金面上 项目 3 项。出版专著 5 部,发表学术 论文 200 余篇。 ·566· 智 能 系 统 学 报 第 16 卷

已到末页,全文结束
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档