《商务智能》课程学习资料:集成学习实用机器学习方法 Ensemble Learning

集成学习 Ensemble Learning 孙亮 sunliang@outlook.com 互联网新技术在线教育领航者
互联网新技术在线教育领航者 集成学习 Ensemble Learning 孙亮 sun.liang@outlook.com

Outline 1.从 Netflix prize说起 2.集成学习的基本思想 1.集成学习为何有效 2.如何构建不同的基学习器 3.如何综合多个基学习器 3. Bagging 1. Bagging的基本思想 2.随机森林以及在R中的实际应用 4. Boosting 1. Boosting的基本思想 2. Adaboost以及在R中的实际应用 5. Stacking 6.小结以及实用技巧 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 Outline 1. 从Netflix Prize说起 2. 集成学习的基本思想 1. 集成学习为何有效 2. 如何构建不同的基学习器 3. 如何综合多个基学习器 3. Bagging 1. Bagging的基本思想 2. 随机森林以及在R中的实际应用 4. Boosting 1. Boosting的基本思想 2. AdaBoost以及在R中的实际应用 5. Stacking 6. 小结以及实用技巧

从 Netflix prize说起 http://www.netflixprize NETFLIX com/ Movies For You Welcome! Netflix prize寻求有效的 算法从过去的历史信息中准 ouest, you sho 确的预测用户对于某一电影 are doing on the Leaderboard. 的喜好程度 奖金1百万美元,要求解决方案 的RMSE比当时Netf的方案提 高10% 口我们需要预测给定的用户-电影对对应 的讦分(1星到5星 口评价标准: Root mean square error(RMSE) 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 从Netflix Prize说起 我们需要预测给定的用户-电影对 对应 的评分(1星到5星) 评价标准:Root mean square error (RMSE) http://www.netflixprize. com/ Netflix Prize寻求有效的 算法从过去的历史信息中准 确的预测用户对于某一电影 的喜好程度 奖金1百万美元,要求解决方案 的RMSE比当时Netflix的方案提 高10%

Netflix prize 口具体任务 训练集由一组用户-影片的评分(1星到5星)组成 需要构建模型来预测测试集中的用户-影片的评分 要求解决方案的RMSE比当射Net的方案提高10% 日竞赛过程 ■比赛开始肘主要集中于单个模型的性能提升 但是随看比赛的推进,单个模型的性能提升越来越慢 主要竞争队伍将多个模型利用集成学习合并,取得了显著的提升 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 Netflix Prize 具体任务 训练集由一组用户-影片的评分(1星到5星)组成 需要构建模型来预测测试集中的用户-影片的评分 要求解决方案的RMSE比当时Netflix的方案提高10% 竞赛过程 比赛开始时主要集中于单个模型的性能提升 但是随着比赛的推进,单个模型的性能提升越来越慢 主要竞争队伍将多个模型利用集成学习合并,取得了显著的提升

Netflix prize获胜方案 Team Name Best Test score Improvement Best submit Time Bellkors Pragmatic ChaDs 200907-2618:18:28 The Ensemble 200907-26183822 2009-07-10212440 Opera Solutions and vandelay United 08588 2009-07-10011231 Vandelay industries! 200907-100032:20 200906-241206:56 ellkor in Bicchaos 08601 20090513081409 2009-07-24171843 08622 94820090712131151 Biqchaos 1233:59 08623 2009-07240034.07 08624 200907261719:11 Progress Prize 2008- RMSE=0.8627- Winning Team: BellKor in Bio chaos wanglang 00907151453:22 08643 200904221831:32 200906-21192453 009-07-15155304 statin a garage 08662 18.J Dennis Su Craia carmichael 200907-251600:54 200903211620:50 Cinematch score- RMSE=0. 9525 Our final solution (RMSE=0. 8712) consists of blending 107 individual results 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 Netflix Prize获胜方案 “Our final solution (RMSE=0.8712) consists of blending 107 individual results.

集成学习在机器学习竞赛中的广泛使用 2: KDD THE 18TH 2012 ACM SIGKDD CONFERENCE ON 器会KDD BEIJING KNOWLEDGE DISCOVERY AND DATA MINING August,2012 (DD2013 CHICA O, LINOIS USA A MINING gaggle KDD2044 Welcome to Tianchi 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习在机器学习竞赛中的广泛使用

集成学习 口在集成学习构建了一组基学习器(base learner),并将它们综合起来作为最终的模 型 在很多集成学习模型中,对基学习器的要求很 低 口集成学习适用于机器学习的几乎所有领城 ■回归 分类 推荐 排序 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习 在集成学习构建了一组基学习器(base learner),并将它们综合起来作为最终的模 型 在很多集成学习模型中,对基学习器的要求很 低 集成学习适用于机器学习的几乎所有领域 回归 分类 推荐 排序

集成学习的为何有效? 口多样( diverse)的基学习器 ■不同的模型取长补短 ■每个基学习器都犯不同的错,综合起来犯错的 可能性不大 口反例:相同的多个基学习器不会帶来任何提 升 互联网新技术在线教育领航者 9/48 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习的为何有效? 多样(diverse)的基学习器 不同的模型取长补短 每个基学习器都犯不同的错 ,综合起来犯错的 可能性不大 反例:相同的多个基学习器不会带来任何提 升 9/48

集成学习示例1:分类问题 口每个线性模型都不能成 功将该数据集分类 口3个线性模型的简单综 合即可将数据集成功分 类 口每个模型犯不同的错, 但是在综合肘能够取长 补短,使得综合后的模 型性能更好 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习示例1:分类问题 每个线性模型都不能成 功将该数据集分类 3个线性模型的简单综 合即可将数据集成功分 类 每个模型犯不同的错, 但是在综合时能够取长 补短,使得综合后的模 型性能更好

集成学习示例2:天气预测 Realit 关… exe. XX s8 x6 Combi 互联网新技术在线教育领航者 业晕学院 ▲ ChinaHadoop.cn
互联网新技术在线教育领航者 集成学习示例2:天气预测 X X X X X X X X X X X X X
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 复旦大学:《商务智能》课程教学讲义(商务数据分析)电子推荐系统.pdf
- 复旦大学《商务智能》课程参考资料:室内位置服务与商业智能.pdf
- 《计算机教育Computer Education》:数据分析类课程的技能培养方法探讨(复旦大学:赵卫东,蒲实).pdf
- 《计算机教育Computer Education》:基于项目实践的机器学习课程改革(复旦大学:赵卫东,袁雪茹).pdf
- 复旦大学:《商务智能》课程学习资料(商务数据分析)一个课程内容专题(主题)的详细教学设计与实施方案.pdf
- 复旦大学:《商务智能》课程学习资料(商务数据分析)数据分析类课程案例实验实训教学交流.pdf
- 复旦大学:《商务智能》课程学习资料(商务数据分析)基于项目沉浸式教学方法的数据分析类课程实践.pdf
- 复旦大学:《商务智能》课程教学讲座(商务数据分析)机器学习及其应用(主讲:赵卫东).pdf
- 复旦大学:《商务智能》课程教学大纲(混合教学)商务数据分析 Business Intelligence.doc
- 复旦大学:《数据库新技术》PPT教学课件_数据库管理系统技术基础.ppt
- 复旦大学:《数据库新技术》PPT教学课件_时空数据管理技术基础 Spatial Data Management.ppt
- 复旦大学:《数据库新技术》PPT教学课件_数据库技术介绍.ppt
- 复旦大学:《数据库新技术》PPT教学课件_查询处理与查询优化技术新进展.ppt
- 复旦大学:《数据库新技术》PPT教学课件_时空数据管理技术应用——移动对象.ppt
- 复旦大学:《数据库新技术》PPT教学课件_隐私保护技术 Privacy Preserving in Data Management and Publication.ppt
- 复旦大学:手机传感器应用APP-Phyphox使用简介(PDF版本).pdf
- 手机传感器应用APP-Phyphox使用简介(PPTX版本).pptx
- Python3 基础教程【完整版】PDF电子书.pdf
- 北京大学:《数据结构与算法》课程教学资源(实验班PPT课件)第十二章 高级树结构.pdf
- 北京大学:《数据结构与算法》课程教学资源(实验班讲义)第十二章 高级树结构.pdf
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)01 商务智能概论 Introduction to Business Intelligence.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)10 流程智能 Process Intelligence.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)11 大数据分析与应用 Big data analytics and applications.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)02 数据仓库 Data Warehouse.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)03 在线分析处理 Online Analytical Processing.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)04 数据挖掘基础(数据挖掘原理).ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)05 数据挖掘技术方法.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)06 数据挖掘应用.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)07 Web挖掘基础.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)08 知识管理.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)09 搜索引擎优化 Search Engine Optimization.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)关联规则 CARMA Continuous Association Rule Mining Algorithm.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)密度聚类——算法详解.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)序列模式挖掘算法.ppt
- 中国科学院计算技术研究所:《高级人工智能》PPT课件_贝叶斯网络——概率推理(史忠植).ppt
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第10章 基于逻辑回归模型的高危.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第11章 卷积神经网络在音频质量评价领域的应用.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第1章 数据分析过程的主要问题.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第2章 保险产品推荐.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第3章 可视化的分析.pptx