复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)无监督学习

6.11无监督学习 聚类算法 K近邻 主成分分析
6.11 无监督学习 聚类算法 K近邻 主成分分析

引言 口无监督算法处理的是那些没有标记的数据: ·缺乏足够的先验知识,因此难以人工标注类别: ·进行人工类别标注的成本太高。 口希望计算机能代我们(部分)完成这些工作,或至少提供一些帮助。 常见的应用背景包括: ·从庞大的样本集合中选出一些具有代表性的加以标注用于分类器的训练: ·先将所有样本自动分为不同的类别,再由人类对这些类别进行标注; ·在无类别信息情况下,寻找好的特征。 口常用算法 ·主成分分析方法PCA等,等距映射方法、局部线性嵌入方法、拉普拉斯 特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等
引言 无监督算法处理的是那些没有标记的数据: • 缺乏足够的先验知识,因此难以人工标注类别; • 进行人工类别标注的成本太高。 希望计算机能代我们(部分)完成这些工作,或至少提供一些帮助。 常见的应用背景包括: • 从庞大的样本集合中选出一些具有代表性的加以标注用于分类器的训练; • 先将所有样本自动分为不同的类别,再由人类对这些类别进行标注; • 在无类别信息情况下,寻找好的特征。 常用算法 • 主成分分析方法PCA等,等距映射方法、局部线性嵌入方法、拉普拉斯 特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等

clustering ■■■ dimensionality reduction ● ●● ● ●● ● ●●●●

6.11.1聚类算法(Clustering) ·聚类算法是一种在数据集中找到相似数据子集(即clusters)的方法: ·它把数据样本按照彼此的相似或靠近程度分组,近的分为一组,远的分 成另外的组 ·属于无监督学习,因为哪些数据应该分成一组并没有所谓正确的答案 ·由于历史原因,聚类算法通常被等价成无监督学习 市场分割 社交关系分组
6.11.1 聚类算法(Clustering) • 聚类算法是一种在数据集中找到相似数据子集(即clusters)的方法: • 它把数据样本按照彼此的相似或靠近程度分组,近的分为一组,远的分 成另外的组 • 属于无监督学习,因为哪些数据应该分成一组并没有所谓正确的答案 • 由于历史原因,聚类算法通常被等价成无监督学习

聚类算法的分类 ·划分方法 ·划分聚类算法通过优化误差函数把数据集分割为K个部分,它需要K作为 输人参数。 ·典型的分割聚类算法有K-means算法,K-medoids.算法、CLARANS算法。 ·层次方法 ·层次聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。 ·不需要输入参数,这是它优于分割聚类算法的一个明显的优点,其缺点 是终止条件必须具体指定。 ·典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。 ·基于密度的聚类方法 ·基于网格的聚类方法 ·具有模型的聚类方法
聚类算法的分类 • 划分方法 • 划分聚类算法通过优化误差函数把数据集分割为K个部分,它需要K作为 输人参数。 • 典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。 • 层次方法 • 层次聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。 • 不需要输入参数,这是它优于分割聚类 算法的一个明显的优点,其缺点 是终止条件必须具体指定。 • 典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。 • 基于密度的聚类方法 • 基于网格的聚类方法 • 具有模型的聚类方法 • …

K均值(K-means)算法 ·K均值(K-means)算法是现在广泛使用的聚类方法。 3 0 3 5 2 3
K均值(K-means)算法 • K均值(K-means)算法是现在广泛使用的聚类方法

K均值(K-means)算法 一、设置聚类中心 二、对附近的数据进行染色归类 三、移动聚类中心到对应类别数据的均值所在位置 四、重复第二、三步,直到聚类中心不再移动 初始化聚类中心 对附近数据染色归类 聚类中心移动到均值 重新染色归类 再次移动到均值 直到不再移动为止
K均值(K-means)算法 一、设置聚类中心 二、对附近的数据进行染色归类 三、移动聚类中心到对应类别数据的均值所在位置 四、重复第二、三步,直到聚类中心不再移动

K均值(K-means)算法 一、假如对于训练样本集{X,x2,…,七n},有K个聚类{4,h,…,},计算 每个样本和聚类中心的距离: lx-4l 找出离x,最近的k,计C,=j。 二、对于聚类中心,找出其对应的所有x,将它们的中心坐标求出,成为新的 4 三、误差函数:使得各个数据点距离聚类中心的距离 总和最小,也就是图中所有红线和蓝线加起来的总长 度最小。 xi-uc
K均值(K-means)算法 一、假如对于训练样本集 { x1 , x2 , … , xn } ,有 K 个聚类{ 1 , 2 , … , K },计算 每个样本和聚类中心的距离: || xi - j || 找出离xi最近的K,计Ci = j。 二、对于聚类中心j,找出其对应的所有xi,将它们的中心坐标求出,成为新的 j: 三、误差函数: 使得各个数据点距离聚类中心的距离 总和最小,也就是图中所有红线和蓝线加起来的总长 度最小。 𝐿 = 1 𝑛 𝑖=1 𝑛 𝒙𝑖 − 𝝁𝐶𝑖 𝝁𝑗 = 1 𝑁𝑗 𝑖∈𝜇𝑗 𝑁𝑗 xi

四、迭代解 ·多次进行随机初始化,以及运行K-means算法,最终选择误差函数最小的一 个结果。 五:K的选择 代 ·K的大小,常常是模凌两可的 部 ·肘部法则(Elbow Method) 数 ·聚类中心个数K的选择,更多是 567 人工进行的,主要看我们运行K 聚类中心个数K 均值(K-means)算法来达到什 么目的
四、迭代解 • 多次进行随机初始化,以及运行 K-means 算法,最终选择误差函数最小的一 个结果。 五:K的选择 • K 的大小,常常是模凌两可的 • 肘部法则(Elbow Method) • 聚类中心个数 K 的选择,更多是 人工进行的,主要看我们运行K 均值(K-means)算法来达到什 么目的

6.11.2主成分分析(Principle Component Analysis,PCA) ·通过正交变换将一组可能存在相关性的变量转换为一组线性不相 关的变量,转换后的这组变量叫主成分。 ·主成分分析首先是由K.皮尔森(KarI Pearson)对非随机变量引 入的,尔后H.霍特林将此方法推广到随机向量的情形。 ·主成分分析就是试图在力保数据信息丢失最少的原则下,对这种 多变量的数据表进行最佳综合简化,也就是说,对高维变量空间 进行降维处理。 ·是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除 等领域都有广泛的应用
6.11.2 主成分分析(Principle Component Analysis, PCA) • 通过正交变换将一组可能存在相关性的变量转换为一组线性不相 关的变量,转换后的这组变量叫主成分。 • 主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引 入的,尔后H.霍特林将此方法推广到随机向量的情形。 • 主成分分析就是试图在力保数据信息丢失最少的原则下,对这种 多变量的数据表进行最佳综合简化,也就是说,对高维变量空间 进行降维处理。 • 是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除 等领域都有广泛的应用
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第七章 机器学习基础.pdf
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第六章 测量误差与测量不确定度.pdf
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第五章 非参数检验.pdf
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第三章 实验数据的参数估计、第四章 实验数据的统计假设检验.pdf
- 复旦大学:《数理统计在化学中的应用》课程教学资源(参考资料)EXCEL常用统计函数介绍.doc
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第一章 绪论、简单历史、基本概念;第二章 正态分布(主讲:李振华).pdf
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习九答案.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习九.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习七(含答案).doc
- 复旦大学:《统计热力学》课程教学资源(PPT课件)复习提纲.ppt
- 《统计热力学》课程教学资源(参考书籍)赖文(I.N.Levine)《量子化学》PDF电子书(共十五章).pdf
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习四答案.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习四.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习五答案.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习五.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习二.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习二 答案.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习三答案.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习三.doc
- 复旦大学:《统计热力学》课程教学资源(作业习题)练习一(含答案).doc
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第八章 方差分析(Analysis of Variance).pdf
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第九章 实验抽样和试验设计和最优化(实验的抽样).pdf
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第九章 实验抽样和试验设计和最优化(试验设计和最优化).pdf
- 复旦大学:《数理统计在化学中的应用》课程教学资源(讲稿)第十章 化学测量的质量保证.pdf
- 复旦大学:《计算化学》课程教学资源(PPT课件讲稿)分子动力学简介.ppt
- 《计算化学》课程教学资源(书籍文献)G09W 帮助文档 Gaussian 09W Reference.pdf
- 《计算化学》课程教学资源(书籍文献)Gaussian 经典书籍《Exploring Chemistry With Electronic Structure Methods》PDF电子书(James B. Foresman、lEleen Frisch,Second Edition).pdf
- 《计算化学》课程教学资源(书籍文献)Gaussian View使用 How to use G03.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 1 introduction to quantum physics.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 2 分子的对称性与群论基础 molecular symmetry and group theory(1/5)对称操作与对称元素.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 2 分子的对称性与群论基础 molecular symmetry and group theory(2/5)群与分子点群.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 2 分子的对称性与群论基础 molecular symmetry and group theory(3/5)对称操作的矩阵表示.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 2 分子的对称性与群论基础 molecular symmetry and group theory(4/5)群表示与不可约表示.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 2 分子的对称性与群论基础 molecular symmetry and group theory(5/5)群论与量子力学.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 3 多原子分子 multi-electrons system(1/4)分子轨道法与HMO.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 3 多原子分子 multi-electrons system(2/4)价键理论与杂化轨道.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 3 多原子分子 multi-electrons system(3/4)金属配合物晶体场理论.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 3 多原子分子 multi-electrons system(4/4)金属配合物分子轨道理论.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 4 introduction of quantum chemistry calculations(1/2)HF与Post HF方法.pdf
- 中国科学技术大学:《量子化学 Quantum Chemistry》课程教学资源(课件讲稿)Topic 4 introduction of quantum chemistry calculations(2/2)密度泛函理论方法 DFT.pdf