浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第七章 分类和预测

分类和预测
分类和预测

分类VS.预测 分类: ¤预测分类标号(或离散值) ¤根据训练数据集和类标号属性,构建模型来分类现有数据, 并用来分类新数据 预测: ¤建立连续函数值模型,比如预测空缺值 典型应用 口信誉证实 a目标市场 a医疗诊断 口性能预测
分类 VS. 预测 ◼ 分类: ❑ 预测分类标号(或离散值) ❑ 根据训练数据集和类标号属性,构建模型来分类现有数据, 并用来分类新数据 ◼ 预测: ❑ 建立连续函数值模型,比如预测空缺值 ◼ 典型应用 ❑ 信誉证实 ❑ 目标市场 ❑ 医疗诊断 ❑ 性能预测

数据分类 个两步过程(1) 第一步,建立一个模型,描述预定数据类集和概念集 口假定每个元组属于一个预定义的类,由一个类标号属性 确定 口基本概念 训综数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组) 口学习模型可以用分类规则、判定树或数学公式的形式提 供
数据分类——一个两步过程 (1) ◼ 第一步,建立一个模型,描述预定数据类集和概念集 ❑ 假定每个元组属于一个预定义的类,由一个类标号属性 确定 ❑ 基本概念 ◼ 训练数据集:由为建立模型而被分析的数据元组形成 ◼ 训练样本:训练数据集中的单个样本(元组) ❑ 学习模型可以用分类规则、判定树或数学公式的形式提 供

数据分类 个两步过程() 第二步,使用模型,对将来的或未知的对象进行分类 口首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测 比较 ■模型在给定测试集上的准确率是正确被模型分类的测试样本的 百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的 情况
数据分类——一个两步过程 (2) ◼ 第二步,使用模型,对将来的或未知的对象进行分类 ❑ 首先评估模型的预测准确率 ◼ 对每个测试样本,将已知的类标号和该样本的学习模型类预测 比较 ◼ 模型在给定测试集上的准确率是正确被模型分类的测试样本的 百分比 ◼ 测试集要独立于训练样本集,否则会出现“过分适应数据”的 情况

第一步——建立模型 分类算法 训练数 据集 NAME RANK YEARS TENURED 分类规则 Mike Assistant Prof no Mary Assistant Prof yes B Professor yes m Associate Prof 37276 yes D ave Assistant Prof IF rank=professor no OR years >6 Anne Associate Prof 3 no THEN tenured =yes
第一步——建立模型 训练数 据集 N AM E RANK YEA RS TEN U RED Mike Assistant Prof 3 n o Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 n o Anne Associate Prof 3 n o 分类算法 IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ 分类规则

第二步——用模型进行分类 分类规则 测试集 未知数据 (Jeff, Professor, 4) NAME RANK YEARS TENURED Tom Assistant Prof no Tenured? Merlisa Associate Prof George Professor 2757 no es Joseph Assistant Prof yes
第二步——用模型进行分类 分类规则 测试集 N AM E RANK YEA RS TEN U RED Tom Assistant Prof 2 n o Merlisa Associate Prof 7 n o George Professor 5 yes Joseph Assistant Prof 7 yes 未知数据 (Jeff, Professor, 4) Tenured?

有指导的学习V.无指导的学习 有指导的学习(用于分类) 口模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行 口新数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) a每个训练样本的类编号是未知的,要学习的类集合 或数量也可能是事先未知的 口通过一系列的度量、观察来建立数据中的类编号或 进行聚类
有指导的学习 VS. 无指导的学习 ◼ 有指导的学习(用于分类) ❑ 模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行 ❑ 新数据使用训练数据集中得到的规则进行分类 ◼ 无指导的学习(用于聚类) ❑ 每个训练样本的类编号是未知的,要学习的类集合 或数量也可能是事先未知的 ❑ 通过一系列的度量、观察来建立数据中的类编号或 进行聚类

准备分类和预测的数据 通过对数据进行预处理,可以提高分类和预测 过程的准确性、有效性和可伸缩性 ¤数据清理 消除或减少噪声,处理空缺值,从而减少学习时的混乱 口相关性分析 ■数据中的有些属性可能与当前任务不相关;也有些属性可 能是冗余的;删除这些属性可以加快学习步骤,使学习结 果更精确 口数据变换 可以将数据概化到较高层概念,或将数据进行规范化
准备分类和预测的数据 ◼ 通过对数据进行预处理,可以提高分类和预测 过程的准确性、有效性和可伸缩性 ❑ 数据清理 ◼ 消除或减少噪声,处理空缺值,从而减少学习时的混乱 ❑ 相关性分析 ◼ 数据中的有些属性可能与当前任务不相关;也有些属性可 能是冗余的;删除这些属性可以加快学习步骤,使学习结 果更精确 ❑ 数据变换 ◼ 可以将数据概化到较高层概念,或将数据进行规范化

比较分类方法 使用下列标准比较分类和预测方法 ¤预测的准确率:模型正确预测新数据的类编号的能 力 ¤速度:产生和使用模型的计算花销 ¤健壮性:给定噪声数据或有空缺值的数据,模型正 确预测的能力 口可伸缩性:大量数据,有效的构建模型的能力 口可解释性:学习模型提供的理解和洞察的层次
比较分类方法 ◼ 使用下列标准比较分类和预测方法 ❑ 预测的准确率:模型正确预测新数据的类编号的能 力 ❑ 速度:产生和使用模型的计算花销 ❑ 健壮性:给定噪声数据或有空缺值的数据,模型正 确预测的能力 ❑ 可伸缩性:对大量数据,有效的构建模型的能力 ❑ 可解释性:学习模型提供的理解和洞察的层次

用判定树归纳分类 什么是判定树? 口类似于流程图的树结构 a每个内部节点表示在一个属性上的测试 a每个分枝代表一个测试输出 口每个树叶节点代表类或类分布 判定树的生成由两个阶段组成 a判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本(必须是离散值) 口树剪枝 多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检 和剪去这种分枝 判定树的使用:对未知样本进行分类 ¤通过将样本的属性值与判定树相比较
用判定树归纳分类 ◼ 什么是判定树? ❑ 类似于流程图的树结构 ❑ 每个内部节点表示在一个属性上的测试 ❑ 每个分枝代表一个测试输出 ❑ 每个树叶节点代表类或类分布 ◼ 判定树的生成由两个阶段组成 ❑ 判定树构建 ◼ 开始时,所有的训练样本都在根节点 ◼ 递归的通过选定的属性,来划分样本 (必须是离散值) ❑ 树剪枝 ◼ 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检 测和剪去这种分枝 ◼ 判定树的使用:对未知样本进行分类 ❑ 通过将样本的属性值与判定树相比较
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第九章 电子商务与数据挖掘.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)期末复习.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第八章 聚类分析.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第六章 大型数据库中的关联规则挖掘.ppt
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第10章 applet和高级图形界面.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第9章 创建用户界面.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第8章 图形程序设计入门.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第7章 数组和向量.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第6章 类的继承性.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第5章 使用对象和类编写程序.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第4章 方法.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第3章 控制语句.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第2章 基本数据类型和基本操作.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第1章 Java入门(主讲:赵铭伟).pdf
- 江西师大:《管理信息系统》第八章 面向对象的系统开发方法.ppt
- 江西师大:《管理信息系统》第七章 管理信息系统的系统实施.ppt
- 江西师大:《管理信息系统》第六章 管理信息系统的设计.ppt
- 江西师大:《管理信息系统》第五章 管理信息系统的系统分析.ppt
- 江西师大:《管理信息系统》第四章 MIS战略规划和开发方法.ppt
- 江西师大:《管理信息系统》第三章 管理信息系统的技术基础.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第一章 序论(主讲教师:王灿).ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第二章 数据仓库和数据挖掘的OLAP技术.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第三章 数据预处理.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第四章 数据挖掘原语、语言和系统结构.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第五章 概念描述:特征化与比较.ppt
- 《网页制作宝典》第1章 网页制作初识.ppt
- 《网页制作宝典》第10章 JavaScriptDHTML和技术.ppt
- 《网页制作宝典》第11章 示例网页利用ASP实现交互功能.ppt
- 《网页制作宝典》第12章 利用ADO实现网页与数据库的链接.ppt
- 《网页制作宝典》第2章 创建站点.ppt
- 《网页制作宝典》第3章 网页文本的处理.ppt
- 《网页制作宝典》第4章 网页表格的处理.ppt
- 《网页制作宝典》第5章 网页框架的处理.ppt
- 《网页制作宝典》第6章 网页图像处理.ppt
- 《网页制作宝典》第7章 在网页中使用超链接.ppt
- 《网页制作宝典》第8章 网页表单的处理.ppt
- 《网页制作宝典》第9章 美化网页.ppt
- 《数字系统与VHDL程序设计语言》课程教学资源(PPT课件讲稿,共六章).ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第五章 选择结构与循环结构.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第一章 Visual Basic概述.ppt