《数据科学引论——Python之道》课程教学资源(课件讲稿)09 机器学习

数据科学论 —Python之道 第9课机器学习 本课程基于BigDataUniversity.com.cn的《Data science with Python Bootcamp》 进行了重新组织与扩充 1
数据科学引论 —— Python之道 第9课 机器学习 本课程基于BigDa瀇aU瀁i瀉e瀅瀆i瀇瀌.c瀂瀀.c瀁的《Da瀇a 瀆cie瀁ce 瀊i瀇h P瀌瀇h瀂瀁 B瀂瀂瀇ca瀀瀃》 进行了重新组织与扩充 1

Snapchat 器 0 ●●●● ●●●●●● ●●●● ●●●●● 2
Snapchat 2

XBox Kinect 公 3
XBox Kinect 3

数据科学方法学 Business Analytic Data Data Data Understanding Approach Requirements Collection Understanding Prediction Interpretation DEPLOY! Justification 和养 Testing Feedback Deployment Evaluation Modeling Data Preparation 4
B瀈瀆i瀁e瀆瀆 U瀁de瀅瀆瀇a瀁di瀁g 数据科学方法学 M瀂de濿i瀁g Da瀇a P瀅e瀃a瀅a瀇i瀂瀁 Da瀇a Re瀄瀈i瀅e瀀e瀁瀇瀆 Feedbac濾 De瀃濿瀂瀌瀀e瀁瀇 P瀅edic瀇i瀂瀁 I瀁瀇e瀅瀃瀅e瀇a瀇i瀂瀁 J瀈瀆瀇ifica瀇i瀂瀁 Te瀆瀇i瀁g Da瀇a C瀂濿濿ec瀇i瀂瀁 E瀉a濿瀈a瀇i瀂瀁 Da瀇a U瀁de瀅瀆瀇a瀁di瀁g A瀁a濿瀌瀇ic A瀃瀃瀅瀂ach 4

主要的分析方法与算法 ·关联分析Associations ·例如:频繁共现项 ·算法:Apriori关联规则 ·分类Classification ·例如:事物类别预测(prediction of item class) ·算法:决策树D3,C4.5,C5.0),分类与回归树(CART),支持向量机(SVM), 神经网络(NN),朴素贝叶斯(Naive Bayes),卡方自动交叉检验(CHAID) ·评估/预测Estimation/Prediction ·预测连续值 ·算法:回归,支持向量机(SVM),K-近邻(KNN) ·聚类Clustering ·例如:查找患者群 ·算法:k-均值,分层聚类 5
主要的分析方法与算法 • 关联分析 A瀆瀆瀂cia瀇i瀂瀁瀆 • 例如: 频繁共现项 • 算法: A瀃瀅i瀂瀅i关联规则 • 分类 C濿a瀆瀆ifica瀇i瀂瀁 • 例如: 事物类别预测(瀃瀅edic瀇i瀂瀁 瀂f i瀇e瀀 c濿a瀆瀆) • 算法: 决策树(ID3, C4.5, C5.0), 分类与回归树(CART), 支持向量机(SVM), 神经网络(NN), 朴素贝叶斯(Naï瀉e Ba瀌e瀆),卡方自动交叉检验(CHAID) • 评估/预测 E瀆瀇i瀀a瀇i瀂瀁/P瀅edic瀇i瀂瀁 • 预测连续值 • 算法: 回归, 支持向量机(SVM), K-近邻(KNN) • 聚类 C濿瀈瀆瀇e瀅i瀁g • 例如: 查找患者群 • 算法: 濾-均值, 分层聚类 5

主要的分析方法与算法 ·序列模式挖掘Sequence mining ·例如:点击流 ·算法:马尔科夫模型,隐马尔可夫模型 ·降维Dimension Reduction ·主成分分析 ·可视化Visualization ·方便人们发现与理解 ·概括Summarization ·描述数据组 ·偏差检测Deviation Detection ·查找变点 ·链接/图分析Link/Graph Analysis ·发现关系 6
主 要 的 分 析 方 法 与 算 法 • 序 列 模 式 挖 掘 Se瀄瀈e瀁ce 瀀i瀁i瀁g • 例 如 : 点 击 流 • 算 法: 马 尔 科 夫 模 型 , 隐 马 尔 可 夫 模 型 • 降 维 Di瀀e瀁瀆i瀂瀁 Red瀈c瀇i瀂瀁 • 主成分分析 • 可 视 化 Vi瀆瀈a濿i瀍a瀇i瀂瀁 • 方 便 人 们 发 现 与 理 解 • 概 括 S瀈瀀瀀a瀅i瀍a瀇i瀂瀁 • 描述数据组 • 偏 差 检 测De瀉ia瀇i瀂瀁 De瀇ec瀇i瀂瀁 • 查 找 变 点 • 链 接 / 图 分 析 Li瀁濾/G瀅a瀃h A瀁a濿瀌瀆i瀆 • 发 现 关 系 6

预测
预 测 7

CO2排放量预测 cdf=df[['ENGINESIZE','CYLINDERS','FUELCONSUMPTION_COMB','CO2EMISSIONS'] cdf.head() ENGINESIZE CYLINDERS FUELCONSUMPTION_COMB CO2EMISSIONS 02.0 4 8.5 196 12.4 4 9.6 221 21.5 4 5.9 136 33.5 6 11.1 255 43.5 6 10.6 244 8
CO2排放量预测 8

评估/预测示例 ·问题: ·我们是否能够不经测试就可以预测C○2的排放量?假设汽车尚未被制造 出来,我们就想要知道它大致的CO2的排放量,这是否可能呢? ·肯定不容易 ·解决方案: ·汽车的CO2排放量可以基于发动机的排量、类型、模式、汽缸、油耗等 计算出来。预测用来评估预期的CO2排放量。 9
评估/预测示例 • 问题: • 我们是否能够不经测试就可以预测 CO2 的排放量? 假设汽车尚未被制造 出来,我们就想要知道它大致的 CO2 的排放量,这是否可能呢? • 肯定不容易 • 解决方案: • 汽车的 CO2 排放量可以基于发动机的排量、类型、模式、汽缸、油耗等 计算出来。预测用来评估预期的 CO2 排放量。 9

什么是预测? ·预测,就是对连续的/数值的/有序的值建模 ·例如,创建CO2排放量的模型,然后,该模型被用于预测新车型 的CO2排放量 历史数据:以往车型的发动机 的排量、类型、模式、汽缸、 油耗、C02排放量等 模型 2 New Car Expected Co2 10
什么是预测? • 预测,就是对连续的/数值的/有序的 值建模 • 例如,创建CO2排放量的模型,然后,该模型被用于预测新车型 的CO2排放量 10 历史数据:以往车型的发动机 的排量、类型、模式、汽缸、 油耗、CO2排放量等 模型
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)08 数据可视化.pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)07 数据科学方法学(2/2).pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)07 数据科学方法学(1/2).pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)06 统计初步.pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)05 网络爬虫介绍和样例.pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)05 爬虫环境搭建.pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)04 数据分析入门.pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)03 数据科学的应用(2/2).pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)02 数据科学的应用(1/2).pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)01 什么是数据科学.pdf
- 《数据科学引论——Python之道》课程教学资源(课件讲稿)00 Python环境搭建.pdf
- 《并行与分布式程序设计》课程教学参考书:并行与并发编程《JAVA并发编程实践》JAVA CONCURRENCY IN PRACTICE(中文完整版).pdf
- 《并行与分布式程序设计》课程教学参考书:并行与并发编程《Java Concurrency In Practice》.pdf
- 《并行与分布式程序设计》课程教学参考书:并行与并发编程《Introduction to Parallel Computing》Ananth Grama, Anshul Gupta, George Karypis, Vipin Kumar(Second Edition).pdf
- 《并行与分布式程序设计》课程教学参考书:并行与并发编程《C++ Concurrency in Action - Practical Multithreading》(Manning, 2012).pdf
- 《并行与分布式程序设计》课程教学参考书:并行与并发编程《An Introduction to Parallel Programming》.pdf
- 《并行与分布式程序设计》课程教学参考书:分布式与云计算《Spark大数据处理技术、应用与性能优化》(PDF扫描版).pdf
- 《并行与分布式程序设计》课程教学参考书:分布式与云计算(美)Tom White《Hadoop权威指南》(中文第3版).pdf
- 《并行与分布式程序设计》课程教学参考书:CUDA《Programming Massively Parellel Processors》大规模并行处理器编程实战(美)David B.Kirk&Wen-mei W.Hwu(中文版).pdf
- 《并行与分布式程序设计》课程教学参考书:CUDA《Programming Massively Parallel Processors》A Hands-on Approach(美,David B. Kirk and Wen-mei W. Hwu,英文版).pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)01 什么是数据科学.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)10 TensorFlow-深度学习实践.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)02 数据科学的应用.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)03 Python简介.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)04 数据分析入门.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)05 数据收集.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)06 数据统计初步.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)07 数据科学方法学.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)08 数据可视化.pdf
- 《数据科学引论——Python之道》课程教学资源(教案讲义)09 机器学习.pdf
- 《机器学习与知识发现》教学资源:Linear Algebra Review and Reference.pdf
- 上海交通大学:《程序设计思想与方法》课程教学资源(PPT课件讲稿)函数指针的应用、气泡排序法.pptx
- 上海交通大学:《程序设计思想与方法》课程教学资源(PPT课件讲稿)第一章 绪论.ppt
- 上海交通大学:《程序设计思想与方法》课程教学资源(PPT课件讲稿)第七章 间接访问——指针.ppt
- 上海交通大学:《程序设计思想与方法》课程教学资源(PPT课件讲稿)第三章 分支程序设计.ppt
- 上海交通大学:《程序设计思想与方法》课程教学资源(PPT课件讲稿)第二章 通过例子学习.ppt
- 上海交通大学:《程序设计思想与方法》课程教学资源(PPT课件讲稿)第五章 批量数据处理——数组.ppt
- 上海交通大学:《程序设计思想与方法》课程教学资源(PPT课件讲稿)第六章 过程封装——函数.ppt
- 上海交通大学:《程序设计思想与方法》课程教学资源(PPT课件讲稿)第四章 循环控制.ppt
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第10章 计算机病毒的防范技术.ppt