浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第五章 概念描述:特征化与比较

概念描述:特征化与比较
概念描述:特征化与比较

两种不同类别的数据挖掘 从数据分析的角度看,数据挖掘可以分为描述 性挖掘和预测性挖掘 ¤描述性挖掘:以简洁概要的方式描述薮据,并提供 数据的有趣的一般性质 ¤预测性数据挖掘:通过分析数据建立一个或一组模 型,并试图预测新数据集的行为
两种不同类别的数据挖掘 ◼ 从数据分析的角度看,数据挖掘可以分为描述 性挖掘和预测性挖掘 ❑ 描述性挖掘:以简洁概要的方式描述数据,并提供 数据的有趣的一般性质。 ❑ 预测性数据挖掘:通过分析数据建立一个或一组模 型,并试图预测新数据集的行为

什么是概念描述? ■概念描述是一种最简单的描述性挖掘 口当所描述的概念所指的是一类对象时,也称为类描 述 概念指的是一类数据的集合 口eg研究生,大客户 概念描述是指为数据的特征化和比较产生描述 特征化:提供给定数据集的简洁汇总。 区分:提供两个或多个数据集的比较描述
什么是概念描述? ◼ 概念描述是一种最简单的描述性挖掘 ❑ 当所描述的概念所指的是一类对象时,也称为类描 述 ◼ 概念指的是一类数据的集合 ❑ e.g. 研究生,大客户 ◼ 概念描述是指为数据的特征化和比较产生描述 ❑ 特征化:提供给定数据集的简洁汇总。 ❑ 区分:提供两个或多个数据集的比较描述

概念描述VS.OLAP ■概念描述和数据仓库的联机分析处理(OLAP)都跟 数据概化密切相关,即以简洁的形式在更一般的抽象 层描述数据,允许数据在抽象层概化,便于考察数据 的一般 ■两者的主要区别 口概念描述 可以处理复杂数据类型的属性及其聚集 个更加自动化的过程 D OLAP 实际使用的OLAP系统中,维和度量的数据类型都非常有限 (非数值型的维和数值型的数据),表现为一种简单的数据分 析模型 个由用户控制的过程
概念描述 VS. OLAP ◼ 概念描述和数据仓库的联机分析处理(OLAP)都跟 数据概化密切相关,即以简洁的形式在更一般的抽象 层描述数据,允许数据在抽象层概化,便于考察数据 的一般行为。 ◼ 两者的主要区别: ❑ 概念描述 ◼ 可以处理复杂数据类型的属性及其聚集 ◼ 一个更加自动化的过程 ❑ OLAP ◼ 实际使用的OLAP系统中,维和度量的数据类型都非常有限 (非数值型的维和数值型的数据),表现为一种简单的数据分 析模型 ◼ 一个由用户控制的过程

数据概化 ■数据概化 ¤数据库中的数据和对象通常包含原始概念层的细节信息,数 据概化就是将数据库中的跟任务相关的数据集从较低的概念 层抽象到较高的概念层的过程。 345 概念层 主要方法: a数据立方体(OLAP使用的方法) a面向属性的归纳方法
数据概化 ◼ 数据概化 ❑ 数据库中的数据和对象通常包含原始概念层的细节信息,数 据概化就是将数据库中的跟任务相关的数据集从较低的概念 层抽象到较高的概念层的过程。 ◼ 主要方法: ❑ 数据立方体(OLAP使用的方法) ❑ 面向属性的归纳方法 1 2 3 4 5 概念层

数据概化:数据立方体方法 执行计算并将结果存储在数据立方体中 优点: 口数据概化的一种有效实现 口可以计算各种不同的度量值 比如: count),sum(, average(0,max() 口概化和特惩分析通过一系列的数据立方体操作完成,比如上 ■缺点 °毋署蒜整蘖桊的醌宮筆萋獒墊翟星犧您分套 ¤缺乏智能分析,不能自动确定分析中该使用哪些维,应该概 化到哪个层次
数据概化:数据立方体方法 ◼ 执行计算并将结果存储在数据立方体中 ◼ 优点: ❑ 数据概化的一种有效实现 ❑ 可以计算各种不同的度量值 ◼ 比如:count(), sum(), average(), max() ❑ 概化和特征分析通过一系列的数据立方体操作完成,比如上 卷、下钻等 ◼ 缺点 ❑ 只能处理非数值类型的维和简单聚集数值类型的度量值(大 部分现有商业系统中,只能为非数值类型的维产生概念分层) ❑ 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概 化到哪个层次

面向属性的归纳 种面向关系数据查询的、基于汇总的在线数据分析 技术。 受数据类型和度量类型的约束比较少 ■面向属性归纳的基本思想: ¤使用关系数据库査询收集任务相关的数据 ¤通过考察任务相关数据中每个属性的不同值的个数进行概化, 方法是属性删除或者是属性概化 ¤通过合并相等的,概化的广义元组,并累计他们对应的计数 值进行聚集操作 a通过与用户交互,将广义关系以图表或规则等形式,提交给 用户
面向属性的归纳 ◼ 一种面向关系数据查询的、基于汇总的在线数据分析 技术。 ◼ 受数据类型和度量类型的约束比较少 ◼ 面向属性归纳的基本思想: ❑ 使用关系数据库查询收集任务相关的数据 ❑ 通过考察任务相关数据中每个属性的不同值的个数进行概化, 方法是属性删除或者是属性概化 ❑ 通过合并相等的,概化的广义元组,并累计他们对应的计数 值进行聚集操作 ❑ 通过与用户交互,将广义关系以图表或规则等形式,提交给 用户

面向属性的归纳的基本步骤 数据聚焦,获得初始工作关系 进行面向属性的归纳 口基本操作是数据概化,对有大量不同值的属性,进 行进一步概化 ■属性删除 ■属性概化 ¤属性概化控制:控制概化过程,确定有多少不同的 值才算是有大量不同值的属性 属性概化临界值控制 概化关系临界值控制
面向属性的归纳的基本步骤 ◼ 数据聚焦,获得初始工作关系 ◼ 进行面向属性的归纳 ❑ 基本操作是数据概化,对有大量不同值的属性,进 行进一步概化 ◼ 属性删除 ◼ 属性概化 ❑ 属性概化控制:控制概化过程,确定有多少不同的 值才算是有大量不同值的属性 ◼ 属性概化临界值控制 ◼ 概化关系临界值控制

数据聚焦(1) 目的是获得跟任务相关的数据集,包括属性或维,在 DMQL中他们由 in relevance to子句表示 示例 口DMQL:描述Big- Universit!y数据库中研笼生的一般特征 use Big University DB mine charas七eris七 ics as science students" in relevance to name, gender, major, birth place r birth date, residence, phone#, gpa from studen七 where status in graduate
数据聚焦 (1) ◼ 目的是获得跟任务相关的数据集,包括属性或维,在 DMQL中他们由in relevance to子句表示。 ◼ 示例: ❑ DMQL: 描述Big-University数据库中研究生的一般特征 use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate

数据聚焦(2) ¤将数据挖掘査询转换为关系查询 Select name, gender, major, birth place r birth date, residence, phone#, gpa from student where status in (Msc,"MBA"PhD"] 数据聚焦时的困难 口用户在指定相关的数据集方面存在困难,遗漏在描 述中可能起作用的属性 口用户可能引进太多的属性
数据聚焦 (2) ❑ 将数据挖掘查询转换为关系查询 Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “PhD” } ◼ 数据聚焦时的困难 ❑ 用户在指定相关的数据集方面存在困难,遗漏在描 述中可能起作用的属性 ❑ 用户可能引进太多的属性
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第四章 数据挖掘原语、语言和系统结构.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第三章 数据预处理.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第二章 数据仓库和数据挖掘的OLAP技术.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第一章 序论(主讲教师:王灿).ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第七章 分类和预测.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第九章 电子商务与数据挖掘.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)期末复习.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第八章 聚类分析.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第六章 大型数据库中的关联规则挖掘.ppt
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第10章 applet和高级图形界面.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第9章 创建用户界面.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第8章 图形程序设计入门.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第7章 数组和向量.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第6章 类的继承性.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第5章 使用对象和类编写程序.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第4章 方法.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第3章 控制语句.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第2章 基本数据类型和基本操作.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第1章 Java入门(主讲:赵铭伟).pdf
- 江西师大:《管理信息系统》第八章 面向对象的系统开发方法.ppt
- 《网页制作宝典》第1章 网页制作初识.ppt
- 《网页制作宝典》第10章 JavaScriptDHTML和技术.ppt
- 《网页制作宝典》第11章 示例网页利用ASP实现交互功能.ppt
- 《网页制作宝典》第12章 利用ADO实现网页与数据库的链接.ppt
- 《网页制作宝典》第2章 创建站点.ppt
- 《网页制作宝典》第3章 网页文本的处理.ppt
- 《网页制作宝典》第4章 网页表格的处理.ppt
- 《网页制作宝典》第5章 网页框架的处理.ppt
- 《网页制作宝典》第6章 网页图像处理.ppt
- 《网页制作宝典》第7章 在网页中使用超链接.ppt
- 《网页制作宝典》第8章 网页表单的处理.ppt
- 《网页制作宝典》第9章 美化网页.ppt
- 《数字系统与VHDL程序设计语言》课程教学资源(PPT课件讲稿,共六章).ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第五章 选择结构与循环结构.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第一章 Visual Basic概述.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)前言.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第八章 过程.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第二章 Visual Basic程序设计概述.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第九章 菜单、多重窗体多重文档.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第六章 常用控件.ppt