《数据把掘概念与技术》第五章(5-1) 统计推断

第5章统计方法 本章目 阐述统计推论在数据挖掘中的一些常用方法。 介绍评价数据集的差异的不同统计参数 描述朴素贝叶斯分类和对数回归方法的内容和基 本原理。 °用列联表的相关分析介绍对数线性模型。 论述方差分析和多维样本的线性判别分析的一些 概
第5章 统计方法 本章目标 • 阐述统计推论在数据挖掘中的一些常用方法。 • 介绍评价数据集的差异的不同统计参数。 • 描述朴素贝叶斯分类和对数回归方法的内容和基 本原理。 • 用列联表的相关分析介绍对数线性模型。 • 论述方差分析和多维样本的线性判别分析的一些 概念

统计学是一门收集、组织数据并从这些数 据中得出结论的科学。数据集的一般特性 的描述和组织是描述性统计学的主题领域, 而怎样从这些数据推岀结论是统计推理的 主题。 统计数据分析是为数据挖掘制定的最好的 套方法论。从一元的到多元的数据分析 统计学为数据挖掘提供了大量的不同类型 的回归和判别分析方法
• 统计学是一门收集、组织数据并从这些数 据中得出结论的科学。数据集的一般特性 的描述和组织是描述性统计学的主题领域, 而怎样从这些数据推出结论是统计推理的 主题。 • 统计数据分析是为数据挖掘制定的最好的 一套方法论。从一元的到多元的数据分析, 统计学为数据挖掘提供了大量的不同类型 的回归和判别分析方法

5.1统计推断 在统计推断这个领域,如果观测到组成总体的所 有观测值是不可能或不切实际的,只要关心怎样 得出关于总体的结论 在大多数统计分析应用中,必须依据从总体中抽 取的子集的观测值。称这个子集为数据集,从这 个数据集建立一个总体的统计模型,从而对相同 的总体作推断。 问题是它可能导致对总体错误的推断,因此最好 是在独立的、随机观察的情况下选取一个随机的 数据集
5.1 统计推断 • 在统计推断这个领域,如果观测到组成总体的所 有观测值是不可能或不切实际的,只要关心怎样 得出关于总体的结论。 • 在大多数统计分析应用中,必须依据从总体中抽 取的子集的观测值。称这个子集为数据集,从这 个数据集建立一个总体的统计模型,从而对相同 的总体作推断。 • 问题是它可能导致对总体错误的推断,因此最好 是在独立的、随机观察的情况下选取一个随机的 数据集

统计推断方法:估计和假设检验。 在估计中,为了估计系统的未知参数需要给出一个 置信度或一个置信区间。 我们的目标是从数据集1中获得信息来估计现实系 统f(X,w模型的一个或更多的参数w。数据集可用 下式描述 T={(x1,x1n),(x212 n m1"""--mn 上式可作为一组具有相应特征值的样本被列成表格 的形式。只要估计岀这个模型的参数,就能用来 预测随机变量Y,Y是中固有的一个属性Y∈Ⅹ 如果Y是数值数据,称为回归,如果是离散的 无序的数据,称为分类
• 统计推断方法:估计和假设检验。 在估计中,为了估计系统的未知参数需要给出一个 置信度或一个置信区间。 • 我们的目标是从数据集T中获得信息来估计现实系 统f(X,w)模型的一个或更多的参数w。 数据集可用 下式描述: T={(x11,…,x1n), (x21,…,x2n) (xm1,…,xmn)} 上式可作为一组具有相应特征值的样本被列成表格 的形式。只要估计出这个模型的参数,就能用来 预测随机变量Y,Y是T中固有的一个属性Y∈X。 如果Y是数值数据,称为回归,如果是离散的、 无序的数据,称为分类

当估计出数据集的参数模型ν后,就可用该 模型(以函数f(x*,)给出的结论去预测Y 预测值与真实值Y之间的差称为预测误差。 对于Y的预测值,模型fX*,)的自然属性度 量指标是整个数据集的期望均值平方差 ErlY-f(X*, w)21 至于假设检验相关课程已有介绍
• 当估计出数据集的参数模型w后,就可用该 模型(以函数f(X*,w)给出)的结论去预测Y。 • 预测值与真实值Y之间的差称为预测误差。 • 对于Y的预测值,模型f(X*,w)的自然属性度 量指标是整个数据集T的期望均值平方差: ET [Y-f(X*,w)2 ] • 至于假设检验相关课程已有介绍

5.2评测数据集的差异 许多数据挖掘项目,了解给定数据集的更多有关中 心趋势分布的一些特征是非常有用的。平均数 mean、中位数 mediar和众数mode是反映数据 的中心趋势的典型指标,而方差和标准差是反映 数据离散程度的指标。 平均数 mean=l/n> xi 加权平均数 mean ∑mx/∑m
5.2 评测数据集的差异 • 许多数据挖掘项目,了解给定数据集的更多有关中 心趋势分布的一些特征是非常有用的。平均数 mean、中位数median和众数mode是反映数据 的中心趋势的典型指标,而方差和标准差是反映 数据离散程度的指标。 • 平均数: • 加权平均数: = = n i mean n xi 1 1/ = = = n i i n i mean wixi w 1 1 /

中位数:对偏斜数据集来说,中位数更能 反映它的中心趋势。 x(n+1)/2 n是奇数 中位数= (x/2+xm/2)+1)n是偶数 众数:它是反映数据集中心趋势的另一个指标。 众数是在数据集中岀现频率最高的一个数据集。 平均数和中位数主要反映数值型数据集的特征, 而众数也适应于分类数据,但因它是不排序,所 以必须有详细说明
• 中位数:对偏斜数据集来说,中位数更能 反映它的中心趋势。 x(n + 1) / 2 中位数= (xn / 2 + x(n / 2) + 1) n是奇数 n是偶数 • 众数:它是反映数据集中心趋势的另一个指标。 众数是在数据集中出现频率最高的一个数据集。 平均数和中位数主要反映数值型数据集的特征, 而众数也适应于分类数据,但因它是不排序,所 以必须有详细说明

数值数据分散的程度为数据的离散度。反 映离散度最常用的指标是标准差和方差。 n个数据值的x1X2Xn的方差是 2=(1/n+1)∑(x-meam3 标准差是方差的平方根。其基本性质如下: 1.σ度量的是半于平均值的离散程度,仅当平均值 作为中心的度量量使用。 2.仅当数据不存在分散时,σ=0,否则σ>0
• 数值数据分散的程度为数据的离散度。反 映离散度最常用的指标是标准差和方差。 n个数据值的x1 ,x2 ,…xn的方差是: = = + − n i n xi mean 1 2 2 (1/( 1)) ( ) • 标准差是方差的平方根。其基本性质如下: 1.σ度量的是半于平均值的离散程度,仅当平均值 作为中心的度量量使用。 2.仅当数据不存在分散时,σ=0,否则σ>0

53贝叶斯定理 不难想象,数据不是总体或系统建模时惟一可利 用的信息资源。贝叶斯方法提供了一套将外部客 观信息溶入数据分析过程中的原理方法。它为解 决归纳推理分类问题的统计方法提理论依据。 贝叶斯定理: 设X是一个未知类标号的数据样本,设H为某 中假定:数据样本Ⅹ属于特定的类C。我们希望 确定P(X),即给定观测数据样本X后假定H成 立的概率
5.3 贝叶斯定理 • 不难想象,数据不是总体或系统建模时惟一可利 用的信息资源。贝叶斯方法提供了一套将外部客 观信息溶入数据分析过程中的原理方法。它为解 决归纳-推理分类问题的统计方法提理论依据。 • 贝叶斯定理: 设X是一个未知类标号的数据样本,设H为某 种假定:数据样本X属于特定的类C。我们希望 确定P(H|X),即给定观测数据样本X后假定H成 立的概率

贝叶斯定理给出数据集Ⅹ后我们对假设的 信任度的后验概率。贝叶斯定理提供了- 种由概率P(、P和PXH计算后验概率 P(HX)方法,其基本关系是 P(HX=[P(X H)P(H)I/P(X) P(HX)是后验概率或条件X下H的后验概 率。例如,假设数据空间由水果组成,用 它们的颜色和形状描述。假设X表示红色和 圆的,H表示假定X是苹果,则P(HX)反映 当我们看到Ⅹ是红色并是圆的时,我们对 Ⅹ是苹果的确信程度。作为对比P(H)是先 验概率,或H的先验概率
• 贝叶斯定理给出数据集X后我们对假设的 信任度的后验概率。贝叶斯定理提供了一 种由概率P(H)、P(X)和P(X|H)计算后验概率 P(H|X)方法,其基本关系是: P(H|X)=[P(X|H)P(H)]/P(X) P(H|X)是后验概率,或条件X下H的后验概 率。例如,假设数据空间由水果组成,用 它们的颜色和形状描述。假设X表示红色和 圆的,H表示假定X是苹果,则P(H|X)反映 当我们看到X是红色并是圆的时,我们对 X是苹果的确信程度。作为对比,P(H)是先 验概率,或H的先验概率
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《数据把掘概念与技术》第二章 数据准备.ppt
- 《数据把掘概念与技术》第三章 数据归约.ppt
- 《数据把掘概念与技术》第七章 决策树和决策规则.ppt
- 《数据把掘概念与技术》第七章(7-4) 修剪决策树.ppt
- 《数据把掘概念与技术》第一章 数据挖掘的概念.ppt
- 《数据把掘概念与技术》第九章 根据内容检索.ppt
- 《数据把掘概念与技术》第九章(9-3) 文本检索.ppt
- 广东白云学院:《单片机原理与应用》教学大纲.doc
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第7章 常用数字接口电路.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第8章 模拟量的输入输出.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.2 伪指令(4.2.4-4.2.6)4.3 DOS系统功能调用介绍 4.4 汇编语言程序设计基础.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)总复习.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第6章 输入输出和中断技术.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.2 减法指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.1 汇编语言源程序 4.2 伪指令(4.2.1-4.2.3).ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第5章 存储系统.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第4章 汇编语言程序设计 4.5 常见程序设计举例.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.5 程序控制指令 3.3.6 处理器控制指令.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.1 概述 3.2 8086的寻址方式.ppt
- 西安交通大学:《微机原理与接口技术》课程教学资源(PPT课件讲稿)第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.1 数据传送指令 3.3.2 算术运算指令.ppt
- 《数据把掘概念与技术》第五章(5-5) 方差分析.ppt
- 《数据把掘概念与技术》第八章(8-1) 购物篮分析.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘.ppt
- 《数据把掘概念与技术》第六章(6-1) 聚类概念.ppt
- 《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类.ppt
- 《数据把掘概念与技术》第四章 从数据中学习.ppt
- 万博科技职业学院:《Visual Basic程序设计》第一章 概论.ppt
- 万博科技职业学院:《Visual Basic程序设计》第三章 BASIC语言基础.ppt
- 万博科技职业学院:《Visual Basic程序设计》第五章 选择结构设计.ppt
- 万博科技职业学院:《Visual Basic程序设计》第四章 程序的输入和输出.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十章 菜单和工具栏.ppt
- 万博科技职业学院:《Visual Basic程序设计》第八章 过程一子程序和函数.ppt
- 万博科技职业学院:《Visual Basic程序设计》第六章 循环程序结构.ppt
- 万博科技职业学院:《Visual Basic程序设计》第九章 对话框.ppt
- 万博科技职业学院:《Visual Basic程序设计》第七章 数组.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十二章 文件处理.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十一章 图形与图象设计.ppt
- 万博科技职业学院:《Visual Basic程序设计》第十三章 访问数据库.ppt
- 山东大学:《Web技术导论》第4章 网页及多媒体制作 4.6 Photoshop和图像处理.ppt