关键词抽取、社会标签推荐及其在社会计算中的应用

关键词抽取、社会标签推荐 及其在社会计算中的应用 刘知远
关键词抽取、社会标签推荐 及其在社会计算中的应用 刘知远

目录 关键词抽取和社会标签推荐简介 关键词抽取方法 ·关键词抽取的应用 ·展望
目录 • 关键词抽取和社会标签推荐简介 • 关键词抽取方法 • 关键词抽取的应用 • 展望

问题描述 关键词自动抽取 Automatic Keyphrase Extraction ·定义:自动从文档中抽取关键词作为文档摘要 ·特点: 多个词或短语 一般来自文档内容
问题描述 • 关键词自动抽取 Automatic Keyphrase Extraction • 定义:自动从文档中抽取关键词作为文档摘要 • 特点: • 多个词或短语 • 一般来自文档内容

关键词抽取的典型应用场景 新闻、学术论文 社会化标注 ABSTRACT 计算|络1通信能源|新衬料|生物医药|商努科技|3大奖 This paper presents a new query recommendation method that generates recommended query list by mining large-scale 惠普抢占个人云计算先机 user logs, Starting from the user logs of click-through data 作者:里卡·课恩发和时:201-②154.19白击:94 we construct a bipartite network where the nodes on one side correspond to unique queries on the other side to unique URLs. Inspired by the bipartite network based resource 关键词:单到计图(mb 云( cloud- facilitated)】【杰弗 ·安查 na anderson)l allocation method, we try to extract the hidden information from the Query-URL bipartite network. The recommended (b)新闻关键词 queries generated by the Method are asymmetrical which means two related queries may have different strength to commend ench other. To evaluate the method, we use 红高粱(1987) one week user logs from Chinese search engine Sogou. The 导张艺谋 81 method is not only 'content ignorant, but also can be casily implemented in a paralleled manner, which is feasible for commercial search engines to handle large scale user logs Categories and Subject Descriptors: H 3.3 Information Storage and Retrieval Information Search and Retrieval 嘉 编阵创雨/朱伟莫宫(原著) (287B8人评份 主美文验 类型剧情请战争 决法257% 制片国家地区中国 会197% 语言汉语盐通话 白11% 片长91分神 General Terms: Algorithins, Experimentation 互遊成员常用的标签(共1279个) Keywords: Asymmetrical query recommendation, user log analysis, network resource allocation, bipartite network 张艺谋(8168}文(4516)巩(3654)中国电112}大陆(1915》中图(1041)爱雷(1192)剧(922 (a)论文关键词 (c)社会标签
关键词抽取的典型应用场景 新闻、学术论文 社会化标注

关键词标注方式 关键词抽取 关键词标注 关键词分配 社会化标注
关键词标注方式 关键词标注 关键词抽取 关键词分配 社会化标注

关键词标注方法 二分类 有监督 多分类 关键词抽取 词频 无监督 图方法
关键词标注方法 关键词抽取 有监督 二分类 多分类 无监督 词频 图方法

有监督方法 转化为二分类问题 判断某个候选关键词是否为关键词 · Frank199.用朴素贝叶斯分类器 · Turney2000采用G4.5决策树分类器 转化为多分类多标签问题 ·传统文本分类方法 受限词表作为候选关键词集合(分类标签) 人工标注训练数据费时费力不适用于网络时代
有监督方法 • 转化为二分类问题 • 判断某个候选关键词是否为关键词 • Frank 1999采用朴素贝叶斯分类器 • Turney 2000采用C4.5决策树分类器 • 转化为多分类多标签问题 • 传统文本分类方法 • 受限词表作为候选关键词集合(分类标签) 人工标注训练数据 费时费力 不适用于网络时代

无监督方法 ·词频 基于 TFIDF及其变形对候选关键词进行排序 图方法 Rada 2004: PageRank TextRank Huang2006:复杂网络统计性质 Litvak and last 2007: hits
无监督方法 • 词频 • 基于TFIDF及其变形对候选关键词进行排序 • 图方法 • Rada 2004: PageRank ➔ TextRank • Huang 2006: 复杂网络统计性质 • Litvak and Last 2007: HITS

词频方法 Term-frequency inverse document-frequency(TF IDF TF: the importance of the term within the document I DF the informat i veness of the term in the document set D TFIDFw=tfw. log2 law]
词频方法 • Term-frequency inverse document-frequency (TFIDF) • TF: the importance of the term within the document • IDF: the informativeness of the term in the document set TFIDF 𝑤 = 𝑡𝑓𝑤 ∙ 𝑙𝑜𝑔2 𝐷 {𝑑𝑓𝑤}

TextRank 构建词网 PageRank 选取排序最高 的词为关键词 R()=A∑"o R()+(1-入 R(W):W的 Page Rank值 o(w:W的出度 eW,W:W→W边上的权重 v节点集合 Pagerank :平滑因子
TextRank 构建词网 PageRank 选取排序最高 的词为关键词 • R(w): w的PageRank值 • O(w): w的出度 • e(𝑤𝑗 , 𝑤𝑖 ): 𝑤𝑗 → 𝑤𝑖边上的权重 • V: 节点集合 • 𝜆: 平滑因子
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《数据库系统原理》课程PPT教学课件(SQLServer)第12章 并发控制.ppt
- 《计算机组成原理》课程教学资源(PPT课件讲稿)第2章 运算方法和运算器.ppt
- 《数据科学》课程教学资源(PPT课件讲稿)第2章 数据预处理.ppt
- 西安理工大学:面向主题的服务(PPT讲稿)综合集成支撑平台业务化——互联网信息化(平台、内容、服务).ppt
- 中国科学技术大学:《数据结构》课程教学资源(PPT课件讲稿)第三章 线性表.pps
- 《计算机网络》课程PPT教学课件(Windows)第09讲 DNS服务.ppt
- 《软件工程》课程教学资源(PPT课件讲稿)第12章 软件开发工具StarUML及其应用.ppt
- 西华大学:《电子商务概论》课程教学资源(PPT课件讲稿)第7章 电子商务物流.ppt
- 中国科学技术大学:《嵌入式操作系统 Embedded Operating Systems》课程教学资源(PPT课件讲稿)第六讲 死锁及其处理.ppt
- 电子科技大学:《网络安全与网络工程》课程教学资源(PPT课件讲稿)第六章 杂凑函数(主讲:聂旭云).ppt
- 某高校计算机专业课程教学大纲合集(汇编).pdf
- 上海交通大学:操作系统安全(PPT课件讲稿)操作系统安全 OS Security(邹恒明).pps
- 《Computer Networking:A Top Down Approach》英文教材教学资源(PPT课件讲稿,3rd edition)Chapter 5 Link Layer and LANs.pps
- 《计算机网络安全》课程电子教案(PPT教学课件)第一章 计算机网络安全概述.ppt
- 并发程序精化验证及其应用(PPT讲稿)Refinement Verification of Concurrent Programs and Its Applications.pptx
- 《单片机原理与其应用》课程教学资源(PPT课件讲稿)第8章 单片机的存储器的扩展.pptx
- 南京大学:模型检验(PPT课件讲稿)model checking.pptx
- 苏州大学:《中文信息处理》课程教学资源(PPT课件讲稿)第二章 汉字代码体系.ppt
- 《C语言程序设计》课程教学资源(PPT课件讲稿)第4章 选择结构程序设计.ppt
- 《机器学习》课程教学资源(PPT课件讲稿)第六章 特征降维和选择.ppt
- 克里特大学:The Application of Artificial Neural Networks in Engineering and Finance.ppt
- 山东大学:IPv6试商用的进展和挑战(PPT讲稿,网络与信息中心:秦丰林).pptx
- 清华大学:域内路由选择(PPT课件讲稿)Intra-domain routing.pptx
- 清华大学:TCP and Congestion Control(1).pptx
- 《人工智能技术导论》课程教学资源(PPT课件讲稿)第3章 图搜索与问题求解.ppt
- 《网页设计》课程教学资源:课程教学大纲.doc
- 西安电子科技大学:《操作系统 Operating Systems》课程教学资源(PPT课件讲稿)Chapter 04 Memory Management.ppt
- 中国水利水电出版社:《单片机原理及应用》课程PPT教学课件(C语言版)第8章 单片机系统扩展(主编:周国运).ppt
- 《Photoshop基础教程与上机指导》教学资源(PPT讲稿)第18章 扫描和修饰图像.ppt
- 西安电子科技大学:《现代密码学》课程教学资源(PPT课件讲稿)第二章 流密码(主讲:董庆宽).pptx
- 北京大学:《高级软件工程》课程教学资源(PPT课件讲稿)第一讲 软件与软件开发.ppt
- 东南大学:《数据结构》课程教学资源(PPT课件讲稿)第七章 图.ppt
- 《The C++ Programming Language》课程教学资源(PPT课件讲稿)Lecture 02 Procedure-Based Programming.ppt
- 《数据库原理与应用》课程PPT教学课件(SQL Server)第9章 存储过程和触发器.ppt
- 合肥学院:《数据库原理与应用》课程教学资源(PPT课件)第1章 数据库系统概述(主讲:叶潮流).ppt
- 北京大学软件研究所:高级软件工程(PPT讲稿)云计算与平台即服务.ppt
- 香港科技大学:深度学习导论(PPT讲稿)Introduction to Deep Learning.pptx
- 香港中文大学:《Topics in Theoretical Computer Science》课程教学资源(PPT课件讲稿)量子计算 Quantum computing.pptx
- 《数字图像处理》课程PPT教学课件(讲稿)第二章 图像获取、显示和表示.ppt
- 《Web编程实用技术教程》课程教学资源(PPT课件讲稿)第5章 MFC WinSock类的编程.ppt