《数据把掘概念与技术》第七章 决策树和决策规则

第七章决策树和决策规则 本章目标 分析解决分类问题的基于逻辑的方法的特 性 描述决策树和决策规则在最终分类模型中 的表述之间的区别 介绍C4.5算法 了解采用修剪方法降低决策树和决策规则 的复杂度
第七章 决策树和决策规则 本章目标 ◼ 分析解决分类问题的基于逻辑的方法的特 性. ◼ 描述决策树和决策规则在最终分类模型中 的表述之间的区别. ◼ 介绍C4.5算法. ◼ 了解采用修剪方法降低决策树和决策规则 的复杂度

决策树和决策规则是解决实际应用中分类 问题的数据挖掘方法。 个堆来分迷是故精项吹到博 过程。由一组输入的属性值向量(也叫属性 向量)和相应的类,用基于归纳学习算法得 出分类 学习的目标是构建—个分类模型,通常也 叫分类器。它可以根据有效的属性输入值 预测一些实体(所给样本)的类。是一个在样 本其他属性已知的情况下预测另外一个属 性(样本的类)舶模型(分类的结果)
◼ 决策树和决策规则是解决实际应用中分类 问题的数据挖掘方法。 ◼ 一般来说,分类是把数据项映射到其中一 个事先定义的类中的这样一个学习函数的 过程。由一组输入的属性值向量(也叫属性 向量)和相应的类,用基于归纳学习算法得 出分类。 ◼ 学习的目标是构建一个分类模型,通常也 叫分类器。它可以根据有效的属性输入值 预测一些实体(所给样本)的类。是一个在样 本其他属性已知的情况下预测另外一个属 性(样本的类)的模型(分类的结果)

7.1决策树 」从数据中生成分类器的一个特别有效的方 法是生成一个决策树。它是种基于逻辑 的方法,通过组输入-输出样本构建决策 树的有指导学习方法。 决策树包含属性已被检验的节点,个节 点的输出分枝和该节点的所有可能的检验 结果相对应
7.1 决策树 ◼ 从数据中生成分类器的一个特别有效的方 法是生成一个决策树。它是一种基于逻辑 的方法,通过一组输入-输出样本构建决策 树的有指导学习方法。 ◼ 决策树包含属性已被检验的节点,一个节 点的输出分枝和该节点的所有可能的检验 结果相对应

图72是一个简单的决策树。该问题有两个 属性XY。所有属性值X>1和Y>B的样本属 于类2。不论属性Y的值是多少,值×1 是 Y>? YA Y>B Y>C 类1 类2 类2 类1 图7-2关于属性X和Y的检验的一个简单的决策树
◼ 图7-2是一个简单的决策树。该问题有两个 属性X,Y。所有属性值X>1和Y>B的样本属 于类2。不论属性Y的值是多少,值X <1的 样本都属于类1

对于树中的非叶节点,可以沿着分枝 继续分区样本,每—个节点得到它相 应的样本子集。 生成决策树的一个著名的算法是 Quinlan的ID3算法,C4.5是它改进版
◼ 对于树中的非叶节点,可以沿着分枝 继续分区样本,每一个节点得到它相 应的样本子集。 ◼ 生成决策树的一个著名的算法是 Quinlan的ID3算法,C4.5是它改进版

ID3算法的基本思路 从树的根节点处的所有训练样本开始,选 取一个属性来划分这些样本。对属性的每 值产生一分枝。分枝属性值的相应样 本子集被移到新生成的子节点上。 2.这个算法递归地应用于每个子节点,直到 个节点上的所有样本都分区到某个类中。 3.到达决策树的叶节点的每条路径表示 分类规则
◼ ID3算法的基本思路: 1. 从树的根节点处的所有训练样本开始,选 取一个属性来划分这些样本。对属性的每 一个值产生一分枝。分枝属性值的相应样 本子集被移到新生成的子节点上。 2. 这个算法递归地应用于每个子节点,直到 一个节点上的所有样本都分区到某个类中。 3. 到达决策树的叶节点的每条路径表示一个 分类规则

该算法的关键性决策是对节点属性值的选 择。ID3和C4.5算法的属性选择的基础是基 于使节点所含的信息熵最小化。 基于信息论的方法坚持对数据库中一个样 本进行分类时所做检验的数量最小。ID3的 属性选择是根据个假设,即:决策树的 复杂度和所给属性值表达的信息量是密切 相关的。基于信息的试探法选择的是可以 给出最高信息的属性,即这个属性是使样 本分类的结果子树所需的信息最小
◼ 该算法的关键性决策是对节点属性值的选 择。ID3和C4.5算法的属性选择的基础是基 于使节点所含的信息熵最小化。 ◼ 基于信息论的方法坚持对数据库中一个样 本进行分类时所做检验的数量最小。ID3的 属性选择是根据一个假设,即:决策树的 复杂度和所给属性值表达的信息量是密切 相关的。基于信息的试探法选择的是可以 给出最高信息的属性,即这个属性是使样 本分类的结果子树所需的信息最小

7,24.5算法:生成一个决策树 C4.5算法最重要的部分是由一组训练样本 生成一个初始决策树的过程。决策树可以 用来对一个新样本进行分类,这种分类从 该树的根节点开始,然后移动样本直至达 叶节点。在每个非叶决策点处,确定该节 点的属性检验结果,把注意力转移到所选 择子树的根节点上
7.2 C4.5算法:生成一个决策树 ◼ C4.5算法最重要的部分是由一组训练样本 生成一个初始决策树的过程。决策树可以 用来对一个新样本进行分类,这种分类从 该树的根节点开始,然后移动样本直至达 叶节点。在每个非叶决策点处,确定该节 点的属性检验结果,把注意力转移到所选 择子树的根节点上

例如,如图73a为决策树分类模型,待分 类有样本如图73b所示,由决策树分类模 型可得出待分类样本为类2。(节点ACF(叶 节点) (属性1>5) A 假 属性 值 B)(属性2=“黑”)(C)(属性3=“否”) 属性 5 假 真 假 属性2 黑 属性3 否 E F G 类 类2 类2 类 a)决策树 b)分类的例子 图7-3基于决策树模型的一个新样本的分类
◼ 例如,如图7-3a为决策树分类模型,待分 类有样本如图7-3b所示,由决策树分类模 型可得出待分类样本为类2。(节点A,C,F(叶 节点))

C45算法的构架是基于亨特的CLS方法 其通过一组训练样本「构造一个决策树 用{C1CCk来表示这些类,集合T所含 的内容信息有3种可能性 丁包含一个或更多的样本,全部属于单个 的类C那么的决策树是曲类C标识的 个叶节点 2.T不包含样本。决策树也是一个叶,但和 该叶关联的类由不同于T的信息决定,如「 中的绝大多数类
◼ C4.5算法的构架是基于亨特的CLS方法, 其通过一组训练样本T构造一个决策树。 用{C1 ,C2 ,…,CK}来表示这些类,集合T所含 的内容信息有3种可能性: 1. T包含一个或更多的样本,全部属于单个 的类Cj。那么T的决策树是由类Cj标识的一 个叶节点。 2. T不包含样本。决策树也是一个叶,但和 该叶关联的类由不同于T的信息决定,如T 中的绝大多数类
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《数据把掘概念与技术》第七章(7-4) 修剪决策树.ppt
- 《数据把掘概念与技术》第一章 数据挖掘的概念.ppt
- 《数据把掘概念与技术》第九章 根据内容检索.ppt
- 《数据把掘概念与技术》第九章(9-3) 文本检索.ppt
- 广东白云学院:《单片机原理与应用》教学大纲.doc
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第7章 常用数字接口电路.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第8章 模拟量的输入输出.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.2 伪指令(4.2.4-4.2.6)4.3 DOS系统功能调用介绍 4.4 汇编语言程序设计基础.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)总复习.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第6章 输入输出和中断技术.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.2 减法指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.1 汇编语言源程序 4.2 伪指令(4.2.1-4.2.3).ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第5章 存储系统.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.5 常见程序设计举例.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.5 程序控制指令 3.3.6 处理器控制指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.1 概述 3.2 8086的寻址方式.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.1 数据传送指令 3.3.2 算术运算指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.3 逻辑运算和移位指令 3.3.4 串操作指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第2章 微型计算机基础.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第1章 基础知识.ppt
- 《数据把掘概念与技术》第三章 数据归约.ppt
- 《数据把掘概念与技术》第二章 数据准备.ppt
- 《数据把掘概念与技术》第五章(5-1) 统计推断.ppt
- 《数据把掘概念与技术》第五章(5-5) 方差分析.ppt
- 《数据把掘概念与技术》第八章(8-1) 购物篮分析.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第六章(6-1) 聚类概念.ppt
- 《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类.ppt
- 《数据把掘概念与技术》第四章 从数据中学习.ppt
- 万博科技职业学院:《Visual Basic程序设计》第一章 概论.ppt
- 万博科技职业学院:《Visual Basic程序设计》第三章 BASIC语言基础.ppt
- 万博科技职业学院:《Visual Basic程序设计》第五章 选择结构设计.ppt
- 万博科技职业学院:《Visual Basic程序设计》第四章 程序的输入和输出.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十章 菜单和工具栏.ppt
- 万博科技职业学院:《Visual Basic程序设计》第八章 过程一子程序和函数.ppt
- 万博科技职业学院:《Visual Basic程序设计》第六章 循环程序结构.ppt
- 万博科技职业学院:《Visual Basic程序设计》第九章 对话框.ppt
- 万博科技职业学院:《Visual Basic程序设计》第七章 数组.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十二章 文件处理.ppt