浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第四章 数据挖掘原语、语言和系统结构

浙江大学远程教育学院 DISTANCELEARN I NGSCHOOLOFZHEJI ANGUN I VERS I TY 任课教师:王灿 课程代码:0703004 课程名称:数据挖掘 第910讲 教师E-mai:sjwj@dlc.zju.edu.cn
9-10 王 灿 数据挖掘 sjwj@dlc.zju.edu.cn 0703004

数据挖掘原语、语言和系 统结构
数据挖掘原语、语言和系 统结构

为什么要数据挖掘原语和语言? 个完全自动(不需要人为干预或指导)的数据挖掘 机器只可能是“一只疯了的怪兽”。 ¤会产生大量模式(重新把知识淹没) 口会涵盖所有数据,使得挖掘效率低下 ¤大部分有价值的模式集可能被忽略 ¤挖掘岀的模式可能难以理解,缺乏有效性、新颖性和实用 性——令人不感兴趣。 ■没有精确的指令和规则,数据挖掘系统就没法使用。 ■用数据挖掘原语和语言来指导数据挖掘
为什么要数据挖掘原语和语言? ◼ 一个完全自动(不需要人为干预或指导)的数据挖掘 机器只可能是“一只疯了的怪兽”。 ❑ 会产生大量模式(重新把知识淹没) ❑ 会涵盖所有数据,使得挖掘效率低下 ❑ 大部分有价值的模式集可能被忽略 ❑ 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用 性——令人不感兴趣。 ◼ 没有精确的指令和规则,数据挖掘系统就没法使用。 ◼ 用数据挖掘原语和语言来指导数据挖掘

数据挖掘原语的组成部分 数据挖掘原语应该包括以下部分: 口说明数据库的部分或用户感兴趣的数据集 a要挖掘的知识类型 口用于指导挖掘的背景知识 口模式评估、兴趣度量 a如何显示发现的知识 数据挖掘原语用于用户和数据挖掘系统通信,让用户 能从不同的角度和深度审查和发现结果,并指导挖掘 过程
数据挖掘原语的组成部分 ◼ 数据挖掘原语应该包括以下部分: ❑ 说明数据库的部分或用户感兴趣的数据集 ❑ 要挖掘的知识类型 ❑ 用于指导挖掘的背景知识 ❑ 模式评估、兴趣度量 ❑ 如何显示发现的知识 ◼ 数据挖掘原语用于用户和数据挖掘系统通信,让用户 能从不同的角度和深度审查和发现结果,并指导挖掘 过程

说明数据挖掘任务的原语 任务相关的数据 口数据库(仓库)名、数据立方体、选择条件、相关属性、分 组条件 挖掘的知识类型 口特征化、区分、关联、分类/预测、聚类 背景知识 ¤概念分层,关联的确信度 模式兴趣度度量 ¤简单性、确定性、实用性、新颖性 发现模式的可视化 a规则、表、图表、图、判定树
说明数据挖掘任务的原语 ◼ 任务相关的数据 ❑ 数据库(仓库)名、数据立方体、选择条件、相关属性、分 组条件 ◼ 挖掘的知识类型 ❑ 特征化、区分、关联、分类/预测、聚类 ◼ 背景知识 ❑ 概念分层,关联的确信度 ◼ 模式兴趣度度量 ❑ 简单性、确定性、实用性、新颖性 ◼ 发现模式的可视化 ❑ 规则、表、图表、图、判定树…

任务相关的数据 用户感兴趣的只是数据库或数据仓库的一个子集。 ¤相关的操作:DB一选择、投影、连接、聚集等;DW一切片、 切块 初始数据关系 数据子集选择过程产生的新的数据关系 ¤可挖掘的视图 用于数据挖掘相关任务的数据集
任务相关的数据 ◼ 用户感兴趣的只是数据库或数据仓库的一个子集。 ❑ 相关的操作:DB-选择、投影、连接、聚集等;DW-切片、 切块 ❑ 初始数据关系 ◼ 数据子集选择过程产生的新的数据关系 ❑ 可挖掘的视图 ◼ 用于数据挖掘相关任务的数据集

任务相关的数据——例子 挖掘加拿大顾客和他们常在 AllElectronics购买 的商品间的关联规则 口数据库(仓库)名( e.g. AllElectronics db) 口包含相关数据的表或数据立方体名( e.g. item, customer, purchases, item sold 口选择相关数据的条件(今年、加拿大) 口相关的属性或维(tem表的name和prce, customer表的 Income和age)
任务相关的数据——例子 ◼ 挖掘加拿大顾客和他们常在AllElectronics购买 的商品间的关联规则 ❑ 数据库(仓库)名 (e.g. AllElectronics_db) ❑ 包含相关数据的表或数据立方体名(e.g. item, customer, purchases, item_sold) ❑ 选择相关数据的条件(今年、加拿大) ❑ 相关的属性或维(item表的name和price, customer表的income和age)

要挖掘的知识类型 ■要挖掘的知识类型将决定使用什么数据挖掘功 能 ¤概念描述(特征化和区分),关联规则,分类/预测」 聚类和演化分析等 模式模板 ¤又称元模式或元规则,用来指定所发现模式所必须 匹配的条件,用于指导挖掘过程
要挖掘的知识类型 ◼ 要挖掘的知识类型将决定使用什么数据挖掘功 能。 ❑ 概念描述(特征化和区分),关联规则,分类/预测, 聚类和演化分析等 ◼ 模式模板 ❑ 又称元模式或元规则,用来指定所发现模式所必须 匹配的条件,用于指导挖掘过程

关联规则元模式——例子 ■研究 ElEctronics的顾客购买习惯,使用如下关联规 a PX: customer, W)AQX,Y=>buys(X, Z Ⅹ-- customer表的关键字 PQ-谓词变量 W,Y,Z-对象变量 模板具体化 aage(X,“30..39”)^ Income(X,“40k.49k)=>buys(X,“"VCR”) [22%,60%] a occupation(x,“ student)∧age(,“20..29”)=>buys(X, computer) [1.4%, 70%]
关联规则元模式——例子 ◼ 研究AllElectronics的顾客购买习惯,使用如下关联规 则: ❑ P(X: customer, W) ∧ Q(X, Y) =>buys(X, Z) ◼ X---customer表的关键字 ◼ P,Q---谓词变量 ◼ W, Y, Z---对象变量 ◼ 模板具体化 ❑ age(X, “30…39”) ∧ income(X, “40k…49k”)=>buys(X, “VCR”) [2.2%, 60%] ❑ occupation(x, “student”) ∧ age(X, “20…29”)=>buys(X, “computer”) [1.4%, 70%]

背景知识:概念分层 背景知识是关于挖掘领域的知 a概念分层是背景知识的一种,它允许在多个抽象层 上发现知识 概念分层以树形结构的节点集来表示,其中每 个节点本身代表一个概念,根节点称为al,而 叶节点则对应于维的原始数据值。 口概念分层中,自顶向底进行层的标识,即叫.0层, 向下依次为1,2,3等层
背景知识:概念分层 ◼ 背景知识是关于挖掘领域的知识 ❑ 概念分层是背景知识的一种,它允许在多个抽象层 上发现知识。 ◼ 概念分层以树形结构的节点集来表示,其中每 个节点本身代表一个概念,根节点称为all,而 叶节点则对应于维的原始数据值。 ❑ 概念分层中,自顶向底进行层的标识,即all为0层, 向下依次为1,2,3等层
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第三章 数据预处理.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第二章 数据仓库和数据挖掘的OLAP技术.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第一章 序论(主讲教师:王灿).ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第七章 分类和预测.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第九章 电子商务与数据挖掘.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)期末复习.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第八章 聚类分析.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第六章 大型数据库中的关联规则挖掘.ppt
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第10章 applet和高级图形界面.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第9章 创建用户界面.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第三篇 图形程序设计 第8章 图形程序设计入门.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第7章 数组和向量.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第6章 类的继承性.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第二篇 面向对象程序设计 第5章 使用对象和类编写程序.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第4章 方法.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第3章 控制语句.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第2章 基本数据类型和基本操作.pdf
- 大连理工大学:《Java语言程序设计》课程电子教案(讲稿)第一篇 程序设计基础 第1章 Java入门(主讲:赵铭伟).pdf
- 江西师大:《管理信息系统》第八章 面向对象的系统开发方法.ppt
- 江西师大:《管理信息系统》第七章 管理信息系统的系统实施.ppt
- 浙江大学:《数据挖掘》课程电子教案(PPT教学课件)第五章 概念描述:特征化与比较.ppt
- 《网页制作宝典》第1章 网页制作初识.ppt
- 《网页制作宝典》第10章 JavaScriptDHTML和技术.ppt
- 《网页制作宝典》第11章 示例网页利用ASP实现交互功能.ppt
- 《网页制作宝典》第12章 利用ADO实现网页与数据库的链接.ppt
- 《网页制作宝典》第2章 创建站点.ppt
- 《网页制作宝典》第3章 网页文本的处理.ppt
- 《网页制作宝典》第4章 网页表格的处理.ppt
- 《网页制作宝典》第5章 网页框架的处理.ppt
- 《网页制作宝典》第6章 网页图像处理.ppt
- 《网页制作宝典》第7章 在网页中使用超链接.ppt
- 《网页制作宝典》第8章 网页表单的处理.ppt
- 《网页制作宝典》第9章 美化网页.ppt
- 《数字系统与VHDL程序设计语言》课程教学资源(PPT课件讲稿,共六章).ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第五章 选择结构与循环结构.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第一章 Visual Basic概述.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)前言.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第八章 过程.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第二章 Visual Basic程序设计概述.ppt
- 湖南农业大学:《Visual Basic程序设计》课程教学资源(PPT课件讲稿)第九章 菜单、多重窗体多重文档.ppt