《数据把掘概念与技术》第三章 数据归约

第三章数据归约 本章目标 明确基于特征、案例维归约与技术归约的区 别。 解释数据挖掘过程的预处理阶段中进行数据 归约的优点 应用相应的统计方法,理解特征选择和特征 构成的基本原则。 ·理解特征等级主成分分析方法。 区别基于增量和平均样本的案例中的技木
第三章 数据归约 本章目标 明确基于特征、案例维归约与技术归约的区 别。 解释数据挖掘过程的预处理阶段中进行数据 归约的优点 应用相应的统计方法,理解特征选择和特征 构成的基本原则。 理解特征等级主成分分析方法。 区别基于增量和平均样本的案例中的技术

3.1大型数据集的维度 ·对数据描述,特征的挑选、归约或转换可能 是决定挖掘方案质量的最重要的冋题。除了 影响到数据挖掘算法的属性,它也能决定问 题量否可解,或所得到的挖掘模型有多强大。 为什么要数据归约 1.一旦特征数量达到数百,而只有上百条样 本用于分析时,对挖掘是相对不够的 2.由髙维度引起的数据超负,使一些挖掘算 法不适用
对数据描述,特征的挑选、归约或转换可能 是决定挖掘方案质量的最重要的问题。除了 影响到数据挖掘算法的属性,它也能决定问 题量否可解,或所得到的挖掘模型有多强大。 为什么要数据归约: 1.一旦特征数量达到数百,而只有上百条样 本用于分析时,对挖掘是相对不够的。 2.由高维度引起的数据超负,使一些挖掘算 法不适用。 3.1 大型数据集的维度

预处理数据集的三个主要维度:列(特 征),行(案例或样本)和特征的值。它 们以平面交件的形式出现。 ·数据归约过程3个基本操作:删除列、删 除行、减少列中值的数量(平整特征)。 例如:用分箱方法减少值的数量,用特征 合并代替原来特征(身体素质指标代替人 的身高和体重特征) 数据归约的约定是不要降低结果的质量
预处理数据集的三个主要维度:列(特 征),行(案例或样本)和特征的值。它 们以平面文件的形式出现。 数据归约过程3个基本操作:删除列、删 除行、减少列中值的数量(平整特征)。 例如:用分箱方法减少值的数量,用特征 合并代替原来特征(身体素质指标代替人 的身高和体重特征) 数据归约的约定是不要降低结果的质量

·在数据归约操作时的目标过程 1计算时间:较简单的数据,也即经过数据归 约后的结果,可减少挖掘所消耗的时间 2预测/描述精度:多数挖掘模型的主要度量 标准,它佔量了数据归纳和慨括为模型的好 不 3数据挖掘模型的描述:简单的描述通常来自 数据归约,意味着模型能得到更好的理解。 ·理想的情况是维归约后既能减少时间,又能 同时提高精度和简化描述
在数据归约操作时的目标过程: 1.计算时间:较简单的数据,也即经过数据归 约后的结果,可减少挖掘所消耗的时间。 2.预测/描述精度:多数挖掘模型的主要度量 标准,它估量了数据归纳和慨括为模型的好 坏。 3.数据挖掘模型的描述:简单的描述通常来自 数据归约,意味着模型能得到更好的理解。 理想的情况是维归约后既能减少时间,又能 同时提高精度和简化描述

●数据归约算法的特征: 1可测性:已归约的数据集可精确确定近似结果的质 里。 2可识别性:挖掘前能执行归约算法时能确定近似结 果的质量 3单调性:算法是可迭代的,结果的质量是时间和输 入数据质量的一个非递减的函数 4.—致性:结果的质量与时间和输入数据质量有关 5收益递增:方案在迭代早期可获得大的改进,但随 时间递减。 6中断性:算法可在任何时刻停止并给出答案。 7优先权:算法可以暂停并以最小的开销新开始
数据归约算法的特征: 1.可测性:已归约的数据集可精确确定近似结果的质 量。 2.可识别性:挖掘前能执行归约算法时能确定近似结 果的质量。 3.单调性:算法是可迭代的,结果的质量是时间和输 入数据质量的一个非递减的函数。 4.一致性:结果的质量与时间和输入数据质量有关。 5.收益递增:方案在迭代早期可获得大的改进,但随 时间递减。 6.中断性:算法可在任何时刻停止并给出答案。 7.优先权:算法可以暂停并以最小的开销新开始

3.2特征归约 ·在进行数据归约时不但要处理干扰数 据和污染数据,而且要处理不相关 相关、冗余数据。为了提高效率,通 常单独处理相关特征,只选择与挖掘 应用相关的数据,以达到用最小的测 量和处理量获得最好的性能。特征归 约的目标
3.2 特征归约 在进行数据归约时不但要处理干扰数 据和污染数据,而且要处理不相关、 相关、冗余数据。为了提高效率,通 常单独处理相关特征,只选择与挖掘 应用相关的数据,以达到用最小的测 量和处理量获得最好的性能。特征归 约的目标:

更少的数据,以便挖掘算法能更快的学 ·更高的挖掘处理精度以便更好地从数 据中归纳出模型。 ·简单的挖掘处理结果,以便理解和使用 起来更加容易。 更少的特征,以便在下一次数据收集中, 通过去除冗余或不相关特征做到节俭
更少的数据,以便挖掘算法能更快的学 习。 更高的挖掘处理精度,以便更好地从数 据中归纳出模型。 简单的挖掘处理结果,以便理解和使用 起来更加容易。 更少的特征,以便在下一次数据收集中, 通过去除冗余或不相关特征做到节俭

特征归约的目标与任务 1特征选择-基于应用领域的知识和挖掘 的目标,选择初始数据集中特征的一个子 集 2特征构成-有一些数据的转换对挖掘方 法的结果有惊人影响,因此特征构成是 个比特殊的挖掘技木更有决定性因素。特 征构成依赖于应用的知识。交叉学科知识 的应用有利于数据准备的改进
特征归约的目标与任务: 1.特征选择-基于应用领域的知识和挖掘 的目标,选择初始数据集中特征的一个子 集。 2.特征构成-有一些数据的转换对挖掘方 法的结果有惊人影响,因此特征构成是一 个比特殊的挖掘技术更有决定性因素。特 征构成依赖于应用的知识,交叉学科知识 的应用有利于数据准备的改进

特征选择方法: 1特征排列算法:特征等级列表是根据特有的评 佔测量标准进行排序的。测量标准基于可用数据 的精度、一致性、信息内容、样本之间的距离和 特征之间的最终统计相关性。它仅指出特征间的 相关性,不提供子集。 2最小子集算法:返回一个最小特征子集,子集 中的特征之间没有等级区别。子集中的特征与挖 掘过程相关,其余的则是不相关的。 ·在特征选择过程中需要建立特征评估方案来确定 等级排列或特征子集选择,这一点很重要
特征选择方法: 1.特征排列算法:特征等级列表是根据特有的评 估测量标准进行排序的。测量标准基于可用数据 的精度、一致性、信息内容、样本之间的距离和 特征之间的最终统计相关性。它仅指出特征间的 相关性,不提供子集。 2.最小子集算法:返回一个最小特征子集,子集 中的特征之间没有等级区别。子集中的特征与挖 掘过程相关,其余的则是不相关的。 在特征选择过程中需要建立特征评估方案来确定 等级排列或特征子集选择,这一点很重要

例如,若一个数据集有3个特征A1,A2A3} 特征出现或不出现取值0.1,共有23个归约的 特征子集, {0.0,00,0,13{0,1,0}{0,1,13{1,0,0}{1,0,1}, {1,1,0}{1,1,1 特征选择的任豸是搜索空间中的每一种状态 都指定可能特征的一个子集。此问题n3, 空间较小,但大多数挖掘应用,n>20.搜 索起点和搜索策略相当重要,常常用试探 搜索代替穷举搜索
例如,若一个数据集有3个特征{A1,A2,A3}, 特征出现或不出现取值0,1,共有2 3个归约的 特征子集, {0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1}, {1,1,0},{1,1,1} 特征选择的任务是搜索空间中的每一种状态 都指定可能特征的一个子集。此问题n=3, 空间较小,但大多数挖掘应用,n>20,搜 索起点和搜索策略相当重要,常常用试探 搜索代替穷举搜索
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《数据把掘概念与技术》第七章 决策树和决策规则.ppt
- 《数据把掘概念与技术》第七章(7-4) 修剪决策树.ppt
- 《数据把掘概念与技术》第一章 数据挖掘的概念.ppt
- 《数据把掘概念与技术》第九章 根据内容检索.ppt
- 《数据把掘概念与技术》第九章(9-3) 文本检索.ppt
- 广东白云学院:《单片机原理与应用》教学大纲.doc
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第7章 常用数字接口电路.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第8章 模拟量的输入输出.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.2 伪指令(4.2.4-4.2.6)4.3 DOS系统功能调用介绍 4.4 汇编语言程序设计基础.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)总复习.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第6章 输入输出和中断技术.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.2 减法指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.1 汇编语言源程序 4.2 伪指令(4.2.1-4.2.3).ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第5章 存储系统.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.5 常见程序设计举例.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.5 程序控制指令 3.3.6 处理器控制指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.1 概述 3.2 8086的寻址方式.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.1 数据传送指令 3.3.2 算术运算指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.3 逻辑运算和移位指令 3.3.4 串操作指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第2章 微型计算机基础.ppt
- 《数据把掘概念与技术》第二章 数据准备.ppt
- 《数据把掘概念与技术》第五章(5-1) 统计推断.ppt
- 《数据把掘概念与技术》第五章(5-5) 方差分析.ppt
- 《数据把掘概念与技术》第八章(8-1) 购物篮分析.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第六章(6-1) 聚类概念.ppt
- 《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类.ppt
- 《数据把掘概念与技术》第四章 从数据中学习.ppt
- 万博科技职业学院:《Visual Basic程序设计》第一章 概论.ppt
- 万博科技职业学院:《Visual Basic程序设计》第三章 BASIC语言基础.ppt
- 万博科技职业学院:《Visual Basic程序设计》第五章 选择结构设计.ppt
- 万博科技职业学院:《Visual Basic程序设计》第四章 程序的输入和输出.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十章 菜单和工具栏.ppt
- 万博科技职业学院:《Visual Basic程序设计》第八章 过程一子程序和函数.ppt
- 万博科技职业学院:《Visual Basic程序设计》第六章 循环程序结构.ppt
- 万博科技职业学院:《Visual Basic程序设计》第九章 对话框.ppt
- 万博科技职业学院:《Visual Basic程序设计》第七章 数组.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十二章 文件处理.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十一章 图形与图象设计.ppt