中国高校课件下载中心 》 教学资源 》 大学文库

《医学统计学》课程教学资源(文献资料)决策树分类算法

文档信息
资源类别:文库
文档格式:PPT
文档页数:20
文件大小:296.5KB
团购合买:点击进入团购
内容简介
《医学统计学》课程教学资源(文献资料)决策树分类算法
刷新页面文档预览

决策树分类算法 黄璜

决策树分类算法 黄璜

基本思路 基本思路是找出最有分辨能力的属性, 把数划分为许多子集(对应树的一个分 枝),构成一个分枝过程,然后对每一子 集递归调用分枝过程,直到所有子集包 含同一类型的数据

基本思路 基本思路是找出最有分辨能力的属性, 把数划分为许多子集(对应树的一个分 枝),构成一个分枝过程,然后对每一子 集递归调用分枝过程,直到所有子集包 含同一类型的数据

决策树分类 冬变量:分类树与回归树 分枝:二叉树与多叉树 ·算法:单一决策树与复合决策树

决策树分类 ❖变量:分类树与回归树 ❖分枝:二叉树与多叉树 ❖算法:单一决策树与复合决策树

建树流程 ÷建树 剪枝

建树流程 ❖建树 ❖剪枝

用样本集S建节点N 返N 足作为学日 网 逐回N 下愿丙电了 N For A=l to m 求gain(A)选取最佳的居性A浓 S分裂为Si F。ri=I七。m 返4N 是为了二 y BuilderTree (Si.A-A*)

决策树剪枝 。目的:克服训练样本集数据噪声 。方法:前剪枝-需预先定义阈值 后剪枝-基于代价复杂性剪枝

决策树剪枝 ❖目的:克服训练样本集数据噪声 ❖方法:前剪枝-需预先定义阈值 后剪枝-基于代价复杂性剪枝

医学常用决策树算法 CHAID卡方自动交互探测 ·CART分类与回归树 冬1D3 C4.5

医学常用决策树算法 ❖ CHAID卡方自动交互探测 ❖ CART分类与回归树 ❖ ID3 ❖ C4.5

CHAID 按照卡方检验的显著性进行多元列联表的自动判断 分组。 CHAID算法是一个不断合并和拆分的过程,每一个 自变量每个水平都要两两配对比较,如果两个类别 相似的话就划归为一类,如果有差别就不能够划分 为一组

CHAID ❖ 按照卡方检验的显著性进行多元列联表的自动判断 分组。 ❖ CHAID 算法是一个不断合并和拆分的过程,每一个 自变量每个水平都要两两配对比较,如果两个类别 相似的话就划归为一类,如果有差别就不能够划分 为一组

·过程:用自变量与结果变量进行交叉分类, 产生一系列二维分类表,分别计算二维分类 表的值,以产生P值最小的二维列表的变量 为最佳的初始分类变量,然后在此基础上继 续分类,直到P大于设定的有统计意义的a 值时停止

❖ 过程:用自变量与结果变量进行交叉分类, 产生一系列二维分类表,分别计算二维分类 表的值,以产生P 值最小的二维列表的变量 为最佳的初始分类变量,然后在此基础上继 续分类,直到P 大于设定的有统计意义的a 值时停止

CART ·选择具有最小基尼指数值的属性作为测试属 性,并采用一种二分递归分割的技术。 ·最后生成的决策树是结构简洁的二叉树。 g基尼指数:Gini=1-(p12+p22) p1+p2=1

CART ❖ 选择具有最小基尼指数值的属性作为测试属 性,并采用一种二分递归分割的技术。 ❖ 最后生成的决策树是结构简洁的二叉树。 ❖ 基尼指数:Gini=1-(p1 2+p2 2) p1+p2=1

共20页,试读已结束,阅读完整版请下载
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档