《数据把掘概念与技术》第二章 数据准备

第二章数据准备 本章目标 ■分析原始大型数据集的基本表述和特征 ■对数值型属性应用不同的标准化技术。 ■了解数据准备的不同技术,包括属性转化。 ■比较去除丢失值的不同方法。 ■构造时间相关数据的统一表达方法。 ■比较不同异常点探测技术。 ■实现一些数据预处理技术
第二章 数据准备 本章目标: 分析原始大型数据集的基本表述和特征。 对数值型属性应用不同的标准化技术。 了解数据准备的不同技术,包括属性转化。 比较去除丢失值的不同方法。 构造时间相关数据的统一表达方法。 比较不同异常点探测技术。 实现一些数据预处理技术

2.1原始数据的表述 ■常见的数据类型 数据挖掘过程的基本对象是数据样本 每个样本都用几个特征来描述,每个特 征有不同的类型的值。常见类型:数值 型和分类型。数值型的值包括实型变量 和整型变量, ■数值型:其特征是其值有顺序关系和距 离关系。 ■分类型:其特征是变量间是否相等,且 可用二进制数来表述
2.1 原始数据的表述 常见的数据类型: 数据挖掘过程的基本对象是数据样本, 每个样本都用几个特征来描述,每个特 征有不同的类型的值。常见类型:数值 型和分类型。数值型的值包括实型变量 和整型变量。 数值型:其特征是其值有顺序关系和距 离关系。 分类型:其特征是变量间是否相等,且 可用二进制数来表述

■基于变量值的变量分类法:连续型变 量和离散型变量 ■连续型变量也称为定量型或度量型变 量。可用间隔尺度或比例尺度來衡量。 温度尺度属间隔尺度,没有绝对零点。 高度、长度和工资属例尺度,有绝 对零点 ■离散型变量也称为定性型变量。可用 名义尺度或有序尺度来衡量。顾客类 型标志和邮编属名义尺度,排名属有 序尺度
基于变量值的变量分类法:连续型变 量和离散型变量. 连续型变量也称为定量型或度量型变 量。可用间隔尺度或比例尺度来衡量。 温度尺度属间隔尺度,没有绝对零点。 高度、长度和工资属比例尺度,有绝 对零点, 离散型变量也称为定性型变量。可用 名义尺度或有序尺度来衡量。顾客类 型标志和邮编属名义尺度,排名属有 序尺度

■周期变量是一种特殊的离散变量, 存在距离关系不存在顺序关系。 星期、月属周期变量 ■基于数据的与时间有关的行为特 性的类型:静忞数据和动态数据
周期变量是一种特殊的离散变量, 存在距离关系不存在顺序关系。 星期、月属周期变量。 基于数据的与时间有关的行为特 性的类型:静态数据和动态数据

2.2原始数据的特性 ■在数据挖掘初始阶段面对的数据也 许有潜在的条乱性,存在着丢失值 失真、误记录和不适当的样本。因 此在必须根据已有的数据甚至是丢 失值的数据进行建模。这样就可能 避免在挖掘前处理丢失值问题
在数据挖掘初始阶段面对的数据也 许有潜在的杂乱性,存在着丢失值、 失真、误记录和不适当的样本。因 此在必须根据已有的数据甚至是丢 失值的数据进行建模。这样就可能 避免在挖掘前处理丢失值问题。 2.2 原始数据的特性

■另一个问题是必须有处理“非常值”的 机制,来消除“非常值”对最终结果的 影响,数据可能并不是來自我们假定的 总体。异常点是典型的例子。 ■失真的数据、方法上错误的步驟、滥用 挖掘工具、模型太理想化、超出各种不 确定性和模糊性的数据来源的模型可能 导致挖掘方向的错误。因此挖掘不只是 简单在应用一系列工具于已知问题,而 是一种批判性的鉴定、考查、检查以及 评佔过程
另一个问题是必须有处理“非常值”的 机制,来消除“非常值”对最终结果的 影响,数据可能并不是来自我们假定的 总体。异常点是典型的例子。 失真的数据、方法上错误的步骤、滥用 挖掘工具、模型太理想化、超出各种不 确定性和模糊性的数据来源的模型可能 导致挖掘方向的错误。因此挖掘不只是 简单在应用一系列工具于已知问题,而 是一种批判性的鉴定、考查、检查以及 评估过程

■挖掘过程中一个最关键的步骤是 对初始数据集的预备和转换,数 据预备有两个中心任务 1.把数据组织成一种标准形式,使 其能被挖掘工具和其他基于计弇 机的工具处理(一个关系表) 准备数据集使之能得到最佳的挖 掘效果
挖掘过程中一个最关键的步骤是 对初始数据集的预备和转换,数 据预备有两个中心任务: 1.把数据组织成一种标准形式,使 其能被挖掘工具和其他基于计算 机的工具处理(一个关系表) 2.准备数据集使之能得到最佳的挖 掘效果

2.3原始数据的转换 1.标准化 挖掘中基于n维空间距离讣算 的方法需要对数据进行标准化处 理来达到最佳效果,将数据按比例 对应到特定的范围,否则距离测 量将会超出平均起来数值更大的 那些特征。标准化常用技术
1.标准化 挖掘中基于n维空间距离计算 的方法需要对数据进行标准化处 理来达到最佳效果,将数据按比例 对应到特定的范围,否则距离测 量将会超出平均起来数值更大的 那些特征。标准化常用技术: 2.3 原始数据的转换

(1)小数缩放:小数缩放移动小数点,但 大多数原始数据保持不变。设缩放区 间为[-1,1,其变换公式为 v(i)=v(i)/10 K是保证缩放后的值落在指定区间的最小 比例。方法为:在原数据集中选择绝 对值最大者,取K使该值绝对值〈1, 然后将该因子施加于所有数据进行缩 放
(1)小数缩放:小数缩放移动小数点,但 大多数原始数据保持不变。设缩放区 间为[-1,1],其变换公式为: k v (i) v(i)/10 ' = K是保证缩放后的值落在指定区间的最小 比例。方法为:在原数据集中选择绝 对值最大者,取K使该值绝对值〈1, 然后将该因子施加于所有数据进行缩 放

(2)最小一最大标准化:小数缩放存在 这样一个问题,假设数据集在150至 250之间,缩放后数据在0.15到0.25之 间,只落在[-1,1]中的一个小 的子区间中,为了使值在薯个标准区 间中有较好的分布,采用最小一最大 式 v(i=(v(i-min((i)/(max(v(i))-min(v(i)
(2)最小-最大标准化:小数缩放存在 这样一个问题,假设数据集在150到 250之间,缩放后数据在0.15到0.25之 间,只落在[-1,1]中的一个小 的子区间中,为了使值在整个标准区 间中有较好的分布,采用最小-最大 公式: ( ) ( ( ) min( ( )))/(max( ( )) min( ( ))) ' v i = v i − v i v i − v i
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《数据把掘概念与技术》第三章 数据归约.ppt
- 《数据把掘概念与技术》第七章 决策树和决策规则.ppt
- 《数据把掘概念与技术》第七章(7-4) 修剪决策树.ppt
- 《数据把掘概念与技术》第一章 数据挖掘的概念.ppt
- 《数据把掘概念与技术》第九章 根据内容检索.ppt
- 《数据把掘概念与技术》第九章(9-3) 文本检索.ppt
- 广东白云学院:《单片机原理与应用》教学大纲.doc
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第7章 常用数字接口电路.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第8章 模拟量的输入输出.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.2 伪指令(4.2.4-4.2.6)4.3 DOS系统功能调用介绍 4.4 汇编语言程序设计基础.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)总复习.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第6章 输入输出和中断技术.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.2 减法指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.1 汇编语言源程序 4.2 伪指令(4.2.1-4.2.3).ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第5章 存储系统.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.5 常见程序设计举例.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.5 程序控制指令 3.3.6 处理器控制指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.1 概述 3.2 8086的寻址方式.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.1 数据传送指令 3.3.2 算术运算指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.3 逻辑运算和移位指令 3.3.4 串操作指令.ppt
- 《数据把掘概念与技术》第五章(5-1) 统计推断.ppt
- 《数据把掘概念与技术》第五章(5-5) 方差分析.ppt
- 《数据把掘概念与技术》第八章(8-1) 购物篮分析.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第六章(6-1) 聚类概念.ppt
- 《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类.ppt
- 《数据把掘概念与技术》第四章 从数据中学习.ppt
- 万博科技职业学院:《Visual Basic程序设计》第一章 概论.ppt
- 万博科技职业学院:《Visual Basic程序设计》第三章 BASIC语言基础.ppt
- 万博科技职业学院:《Visual Basic程序设计》第五章 选择结构设计.ppt
- 万博科技职业学院:《Visual Basic程序设计》第四章 程序的输入和输出.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十章 菜单和工具栏.ppt
- 万博科技职业学院:《Visual Basic程序设计》第八章 过程一子程序和函数.ppt
- 万博科技职业学院:《Visual Basic程序设计》第六章 循环程序结构.ppt
- 万博科技职业学院:《Visual Basic程序设计》第九章 对话框.ppt
- 万博科技职业学院:《Visual Basic程序设计》第七章 数组.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十二章 文件处理.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十一章 图形与图象设计.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十三章 访问数据库.ppt