《数据科学》课程教学资源(PPT课件讲稿)第2章 数据预处理

第2章数据预处理
1 第2章 数据预处理

主要内容 2.1为什么要预处理数据 ■22描述性数据汇总 ■2.3数据清理 ■2.4数据集成和变换 25数据归约 26数据离散化和概念分层产生
主要内容 ◼ 2.1 为什么要预处理数据 ◼ 2.2 描述性数据汇总 ◼ 2.3 数据清理 ◼ 2.4 数据集成和变换 ◼ 2.5 数据归约 ◼ 2.6 数据离散化和概念分层产生 2

1数据预处理的原因 数据质量的含义 正确性( Correctness) 致性( Consistency) 完整性( Completeness) ■可靠性( Reliability)
3 2.1 数据预处理的原因 ◼ 正确性(Correctness) ◼ 一致性(Consistency) ◼ 完整性(Completeness) ◼ 可靠性(Reliability) 数据质量的含义

现实世界的数据 ■不完整的 ■缺少属性值或某些感兴趣的属性,或仅包含聚 集数据 ■含噪声的 ■包含错误或存在偏离期望的离群值 不一致的 ■采用的编码或表示不同,如属性名称不同 冗余的 ■如属性之间可以相互导出
现实世界的数据 ◼ 不完整的 ◼ 缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。 ◼ 含噪声的 ◼ 包含错误或存在偏离期望的离群值。 ◼ 不一致的 ◼ 采用的编码或表示不同,如属性名称不同 ◼ 冗余的 ◼ 如属性之间可以相互导出

据错误的不可避免性 ■数据输入和获得过程数据错误 ■数据集成所表现出来的错误 ■数据传输过程所引入的错误 ■据统计有错误的数据占总数据的5%左 右[ Redmen],[Orr98]
5 数据错误的不可避免性 ◼ 数据输入和获得过程数据错误 ◼ 数据集成所表现出来的错误 ◼ 数据传输过程所引入的错误 ◼ 据统计有错误的数据占总数据的5%左 右[Redmen],[Orr98]

数据错误的危害性 ■高昂的操作费用 ■糟糕的决策制定 组织的不信任 ■分散管理的注意力
数据错误的危害性 ◼ 高昂的操作费用 ◼ 糟糕的决策制定 ◼ 组织的不信任 ◼ 分散管理的注意力

数据预处理的形式 ■数据清理 ■补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致 数据集成 集成多个数据库、数据立方或文件 数据变换 n规范化和聚集 ■数据归约 简化数据、但产生同样或相似的结果7
7 数据预处理的形式 ◼ 数据清理 ◼ 补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致 ◼ 数据集成 ◼ 集成多个数据库、数据立方或文件 ◼ 数据变换 ◼ 规范化和聚集 ◼ 数据归约 ◼ 简化数据、但产生同样或相似的结果

数据预处理的形式 Data cleaning Data integration Data transformation 2,32,100.59,48 0.02,0.32,1.00,0.59,0.48 Data reduction attributes attributes Al A2 A3 A126 Al A3 A115 T3 T4 T4 T1456 T2000
数据预处理的形式

小结 ■现实世界的数据一般是脏的、不完整的和不 致的。 ■数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。 ■高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤 ■检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报
小结 ◼ 现实世界的数据一般是脏的、不完整的和不一 致的。 ◼ 数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。 ◼ 高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。 ◼ 检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报

22描述性数据汇总 ■获得数据的总体印象对于成功的数据预处理是 至关重要的 ■描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 ■动机:更好的理解数据 ■主要内容:度量数据的中心趋势和离散程度、 描述数据汇总的图形显示
2.2 描述性数据汇总 ◼ 获得数据的总体印象对于成功的数据预处理是 至关重要的。 ◼ 描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。 ◼ 动机:更好的理解数据。 ◼ 主要内容:度量数据的中心趋势和离散程度、 描述数据汇总的图形显示
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 西安理工大学:面向主题的服务(PPT讲稿)综合集成支撑平台业务化——互联网信息化(平台、内容、服务).ppt
- 中国科学技术大学:《数据结构》课程教学资源(PPT课件讲稿)第三章 线性表.pps
- 《计算机网络》课程PPT教学课件(Windows)第09讲 DNS服务.ppt
- 《软件工程》课程教学资源(PPT课件讲稿)第12章 软件开发工具StarUML及其应用.ppt
- 西华大学:《电子商务概论》课程教学资源(PPT课件讲稿)第7章 电子商务物流.ppt
- 中国科学技术大学:《嵌入式操作系统 Embedded Operating Systems》课程教学资源(PPT课件讲稿)第六讲 死锁及其处理.ppt
- 电子科技大学:《网络安全与网络工程》课程教学资源(PPT课件讲稿)第六章 杂凑函数(主讲:聂旭云).ppt
- 某高校计算机专业课程教学大纲合集(汇编).pdf
- 上海交通大学:操作系统安全(PPT课件讲稿)操作系统安全 OS Security(邹恒明).pps
- 《Computer Networking:A Top Down Approach》英文教材教学资源(PPT课件讲稿,3rd edition)Chapter 5 Link Layer and LANs.pps
- 《计算机网络安全》课程电子教案(PPT教学课件)第一章 计算机网络安全概述.ppt
- 并发程序精化验证及其应用(PPT讲稿)Refinement Verification of Concurrent Programs and Its Applications.pptx
- 《单片机原理与其应用》课程教学资源(PPT课件讲稿)第8章 单片机的存储器的扩展.pptx
- 南京大学:模型检验(PPT课件讲稿)model checking.pptx
- 苏州大学:《中文信息处理》课程教学资源(PPT课件讲稿)第二章 汉字代码体系.ppt
- 《C语言程序设计》课程教学资源(PPT课件讲稿)第4章 选择结构程序设计.ppt
- 《机器学习》课程教学资源(PPT课件讲稿)第六章 特征降维和选择.ppt
- 数据挖掘实现的住院病人的实时预警(PPT讲稿)Real-Time Clinical Warning for Hospitalized Patients via Data Mining.pptx
- 《PHP程序设计》教学资源(PPT课件讲稿)项目四 面向对象网站开发.ppt
- 《软件工程》课程教学资源(PPT课件讲稿)第3章 软件需求分析.ppt
- 《计算机组成原理》课程教学资源(PPT课件讲稿)第2章 运算方法和运算器.ppt
- 《数据库系统原理》课程PPT教学课件(SQLServer)第12章 并发控制.ppt
- 关键词抽取、社会标签推荐及其在社会计算中的应用.pptx
- 克里特大学:The Application of Artificial Neural Networks in Engineering and Finance.ppt
- 山东大学:IPv6试商用的进展和挑战(PPT讲稿,网络与信息中心:秦丰林).pptx
- 清华大学:域内路由选择(PPT课件讲稿)Intra-domain routing.pptx
- 清华大学:TCP and Congestion Control(1).pptx
- 《人工智能技术导论》课程教学资源(PPT课件讲稿)第3章 图搜索与问题求解.ppt
- 《网页设计》课程教学资源:课程教学大纲.doc
- 西安电子科技大学:《操作系统 Operating Systems》课程教学资源(PPT课件讲稿)Chapter 04 Memory Management.ppt
- 中国水利水电出版社:《单片机原理及应用》课程PPT教学课件(C语言版)第8章 单片机系统扩展(主编:周国运).ppt
- 《Photoshop基础教程与上机指导》教学资源(PPT讲稿)第18章 扫描和修饰图像.ppt
- 西安电子科技大学:《现代密码学》课程教学资源(PPT课件讲稿)第二章 流密码(主讲:董庆宽).pptx
- 北京大学:《高级软件工程》课程教学资源(PPT课件讲稿)第一讲 软件与软件开发.ppt
- 东南大学:《数据结构》课程教学资源(PPT课件讲稿)第七章 图.ppt
- 《The C++ Programming Language》课程教学资源(PPT课件讲稿)Lecture 02 Procedure-Based Programming.ppt
- 《数据库原理与应用》课程PPT教学课件(SQL Server)第9章 存储过程和触发器.ppt
- 合肥学院:《数据库原理与应用》课程教学资源(PPT课件)第1章 数据库系统概述(主讲:叶潮流).ppt
- 北京大学软件研究所:高级软件工程(PPT讲稿)云计算与平台即服务.ppt
- 香港科技大学:深度学习导论(PPT讲稿)Introduction to Deep Learning.pptx