复旦大学:《商务智能》课程PPT教学课件(商务数据分析)07 Web挖掘基础

web挖掘基础 赵卫东博士 复旦大学软件学院 wdzhao@fudan.edu.cn ebusiness FUDAN UNIVERSITY
Web挖掘基础 赵卫东 博士 复旦大学软件学院 wdzhao@fudan.edu.cn

提纲 Web挖掘的概念 Web内容挖掘 Web结构挖掘 WWW 知识 Web日志挖据 ebusiness FUDAN UNIVERSITY
提纲 • Web挖掘的概念 • Web内容挖掘 • Web结构挖掘 • Web日志挖掘 WWW 知识

Web挖掘的挑战 Web数据量太庞大: Server level collection、 Client Level Collection/A Proxy Level collection Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的 ebusiness FUDAN UNIVERSITY
Web 挖掘的挑战 • Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level Collection • Web数据的复杂性高于传统的文本文档 • Web是一个动态性极强的信息源 • Web面对的是一个广泛的用户群体 • Web上的信息只有很小的一部分是相关的或有用的

Web挖掘与R web上的IR是web挖掘的一个方面,仅是对信息有序化。 web挖掘是智能化的IR,IR出现早,技术成熟。 Ofher Users ocal Computer Page Caching Muf ple Users Local Network Dynamic Addressing Proxy Server Page Caching ebusiness Web server FUDAN UNIVERSIT
Web挖掘与IR • Web上的IR是Web挖掘的一个方面,仅是对信息有序化。 • Web挖掘是智能化的IR,IR出现早,技术成熟

Web挖掘概念 Web挖掘是从大量Web文档的集合C中发现隐含的、有用的 模式P的过程:C→P。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的 数据,这些数据分布在Web文档、Web服务器的日志、用户 cookies等。 ebusiness FUDAN UNIVERSITY
Web挖掘概念 • Web挖掘是从大量Web文档的集合C中发现隐含的、有用的 模式P的过程:C→P 。 • Web挖掘主要处理文本、图形和图像等半结构、非结构化的 数据,这些数据分布在Web文档、Web服务器的日志、用户 cookies等

Web挖掘分类 Web挖掘 Web内容挖掘 web结构挖掘 Web使用挖掘 文本挖掘 多媒体挖掘 URL挖掘 内、外部结构挖掘 般访问模式个性化访问模 追踪 式追踪 ebusiness FUDAN UNIVERSITY
Web挖掘分类 Web挖掘 Web内容挖掘 Web结构挖掘 Web使用挖掘 文本挖掘 多媒体挖掘 内、外部结构挖掘 URL挖掘 个性化访问模 式追踪 一般访问模式 追踪

Web挖掘类 项目 Web内容挖掘 Web结构挖掘Web日志挖掘 处理数据 IR方法:无结构数据、半结构数据 Wb结构数据用户访问Wb数据 类型 Serverlog, 主要数据 Web文档内及文档 自由化文本、HTML标记的超文本间的超链 Proxy serverlog, Client log 表示方法词集、段落、概念、|R的三种经典模型 图 关系表、图 处理方法 统计、机器学习、自然语言理解法 机器学习、专有算统计、机器学习、 关联规则 页面权重 主要应用 分类、聚类、模式发现 分类聚类 Web站点重建,商 业决策 模式发现 ebusiness FUDAN UNIVERSITY
Web挖掘类 项目 Web内容挖掘 Web结构挖掘 Web日志挖掘 处理数据 类型 IR方法:无结构数据、半结构数据 Web结构数据 用户访问Web数据 主要数据 自由化文本、HTML标记的超文本 Web文档内及文档 间的超链 Serverlog, Proxy serverlog, Client log 表示方法 词集、段落、概念、IR的三种经典模型 图 关系表、图 处理方法 统计、机器学习、自然语言理解 机器学习、专有算 法 统计、机器学习、 关联规则 主要应用 分类、聚类、模式发现 页面权重 分类聚类 模式发现 Web站点重建,商 业决策

Web内容挖掘 . 基于网页内容或其 描述中抽取知识的 203.30.5,145w. acr.nowe.org·I1/run/199:03;09121-0600]"a/clla/chtm 过程。 Http/1.02003942http://www.lycos.cca/cg1 bn/pursuit?queryradrarts1ng+psyehologynarhts20at=dlr""kz111a/4.5tan)(n9s;I Web内容挖掘主要 203.305.145ww.acr· ncwE. org·1/un/999:03:09:23-0600]"a /cAlls/inages/earthan1.gitBrid/1.0'20010689http://ww.acr-newsarg/calls/okOh.html 包括文本挖据和多 #calla/4. 5 (en)(Mins, I) 203.30.5.145ow,acr.nes.org·Ion/ang:03:0:24-.0600“c/clls/nag/1l.gt 媒体挖掘两类,其 Httd/1.0200190'http://ww.acr-navs.org/ca11s/02cM.htnl'mozi1lay4.5[an]Ix1N98rI) 203. 30. 5. 145 ww. acr-nevs, org.[01/Jun/1999: 03: 09: 25 -0600)"CaT /Calls/Inages/rod. git 挖掘对象包括文本 Httd/1.0200104http://w.acr-noxs.org/cal1s/0ch.htnl'mor11la/4.5[en](in98:I' 图像、音频、视频1 和其他各种类型的-m21mm如出m紫 数据。 203.252.234.33ww. acr.newe.org·0l/u/99:03:32:35-0600"ar/raag/rd.gr Httd/1.0.200104'http://n.acr-naws.org/maz111a/4.6[an](xin95;i) 203.252.24.3ww,acr-news.org·l01/u/199:03:32:35-0600)"ga/mage/ arthan1.g1t Http/1.020010689'http://n.acr-nexs.org/"hbz111a/4.06(en](w1N95:I) 203.252.234.33ww.acr-nwa,org·I0/Ju/19:03:33:11-0600"a/CPbtnlHTTP/1.@"20 3218http://www.acr-nevc.org/hoz11lay4.06[an](win95:i) ebusiness FUDAN UNIVERSITY
Web内容挖掘 • 基于网页内容或其 描述中抽取知识的 过程。 • Web内容挖掘主要 包括文本挖掘和多 媒体挖掘两类,其 挖掘对象包括文本、 图像、音频、视频 和其他各种类型的 数据

日志的预处理 IP Address Time/ Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan01 GET Index. htm http://ok.edu/link.htm Mozilla/4.0(正E5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(正5.0W98) 202.120.224.4 15:30:01/2-Jan01 GET A.htm http://ex.edu/index.ht Mozilla/4.0(I5.0W98) 202.120.224.4 15:33:04/2-an01 GET Index htm http://ok.edu/res.php Mozilla/4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET 1.htm http://ex.edu/index.htm Mozilla 4.0(IE4.ONT) 202.120.224.4 15:33:042-an01 GET A. htm http://ex.edu/index.htm Mozilla/4.0(IE4.ONT) 202.120.224.4 15:35:11/2-Jan01 GET C. htm http://ok.edu/a.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:35:11/2-Jan-0 GET B. htm http://ex.edu/a.htm MoZilla/ 4.(IE4.OND) 202.120.224.4 15:37:09/2-Jan01 GET Htm http://ex.edu/c.htm Mozilla /4.0(E5.0W98) ebusiness FUDAN UNIVERSITY
日志的预处理 IP Address Time/Date Method/URI Referrer Agent 202.120.224.4 15:30:01/2-Jan-01 GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:30:01/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:37:09/2-Jan-01 GET E.htm http://ex.edu/C.htm Mozilla/4.0(IE5.0W98) 202.120.224.4 15:33:04/2-Jan-01 GET Index.htm http://ok.edu/res.php Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET 1.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:33:04/2-Jan-01 GET A.htm http://ex.edu/index.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET B.htm http://ex.edu/A.htm Mozilla/4.0(IE4.0NT) 202.120.224.4 15:35:11/2-Jan-01 GET C.htm http://ok.edu/A.htm Mozilla/4.0(IE5.0W98)

Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问 信息等在内的各种Web数据,应用数据挖掘方法发现有用的 知识帮助人们从大量Web文档集中发现隐藏的模式。 hn)采集-W文本提取→特征库}挖据- 评价 输出 ebusiness FUDAN UNIVERSITY
Web文本挖掘 • Web文本挖掘针对包括Web页面内容、页面结构和用户访问 信息等在内的各种Web数据,应用数据挖掘方法发现有用的 知识帮助人们从大量Web文档集中发现隐藏的模式。 Internet 采集 Web文本 提取 特征库 挖掘 结果 评价 输出
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)06 数据挖掘应用.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)05 数据挖掘技术方法.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)04 数据挖掘基础(数据挖掘原理).ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)03 在线分析处理 Online Analytical Processing.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)02 数据仓库 Data Warehouse.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)11 大数据分析与应用 Big data analytics and applications.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)10 流程智能 Process Intelligence.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)01 商务智能概论 Introduction to Business Intelligence.ppt
- 《商务智能》课程学习资料:集成学习实用机器学习方法 Ensemble Learning.pdf
- 复旦大学:《商务智能》课程教学讲义(商务数据分析)电子推荐系统.pdf
- 复旦大学《商务智能》课程参考资料:室内位置服务与商业智能.pdf
- 《计算机教育Computer Education》:数据分析类课程的技能培养方法探讨(复旦大学:赵卫东,蒲实).pdf
- 《计算机教育Computer Education》:基于项目实践的机器学习课程改革(复旦大学:赵卫东,袁雪茹).pdf
- 复旦大学:《商务智能》课程学习资料(商务数据分析)一个课程内容专题(主题)的详细教学设计与实施方案.pdf
- 复旦大学:《商务智能》课程学习资料(商务数据分析)数据分析类课程案例实验实训教学交流.pdf
- 复旦大学:《商务智能》课程学习资料(商务数据分析)基于项目沉浸式教学方法的数据分析类课程实践.pdf
- 复旦大学:《商务智能》课程教学讲座(商务数据分析)机器学习及其应用(主讲:赵卫东).pdf
- 复旦大学:《商务智能》课程教学大纲(混合教学)商务数据分析 Business Intelligence.doc
- 复旦大学:《数据库新技术》PPT教学课件_数据库管理系统技术基础.ppt
- 复旦大学:《数据库新技术》PPT教学课件_时空数据管理技术基础 Spatial Data Management.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)08 知识管理.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)09 搜索引擎优化 Search Engine Optimization.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)关联规则 CARMA Continuous Association Rule Mining Algorithm.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)密度聚类——算法详解.ppt
- 复旦大学:《商务智能》课程PPT教学课件(商务数据分析)序列模式挖掘算法.ppt
- 中国科学院计算技术研究所:《高级人工智能》PPT课件_贝叶斯网络——概率推理(史忠植).ppt
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第10章 基于逻辑回归模型的高危.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第11章 卷积神经网络在音频质量评价领域的应用.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第1章 数据分析过程的主要问题.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第2章 保险产品推荐.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第3章 可视化的分析.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第4章 SPSS Modeler介绍.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第5章 香水销售分析.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第6章 银行信用卡欺诈与拖欠行为分析.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第7章 海底捞火锅运营分析.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第8章 商务宾馆竞争分析.pptx
- 复旦大学:《数据挖掘实用案例分析》课程教学资源(PPT课件讲稿)第9章 耐热导线工厂质量管理数据分析.pptx
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(PPT课件,第3版)Chapter 01 An Overview of Business Intelligence, Analytics, and Decision Support.pptx
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(PPT课件,第3版)Chapter 02 Data Warehousing.pptx
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(PPT课件,第3版)Chapter 03 Business Reporting, Visual Analytics, and Business Performance Management.pptx