西安电子科技大学:《信息检索》课程教学资源(课件讲稿)文本分类(Text Classification)

本科:Web信息搜索 §4.2文本分类 (Text Classification) 徐悦甡 ysxu@xidian.edu.cn/xuyueshen@163.com 知识与数据工程研究中心 历些毛子种技大学 XIDIAN UNIVERSITY
§4.2 文本分类 (Text Classification) 徐悦甡 ysxu@xidian.edu.cn / xuyueshen@163.com 知识与数据工程研究中心 本科:Web信息搜索

本节提纲 历些毛子种技大学 XIDIAN UNIVERSITY ▣文本分类(Text Classification) ■示例、定义与范畴 ■文档表示与特征选择 ■中文文本类别与层次分类结构(人工) ■文本分类方法 >分类流程 >基于划分的方法(e.g,K近邻) >基于模型的方法(不细讲) ■分类效果评估 2017/5/6 软件工程系
2017/5/6 软件工程系 本节提纲 文本分类(Text Classification) 示例、定义与范畴 文档表示与特征选择 中文文本类别与层次分类结构(人工) 文本分类方法 ➢ 分类流程 ➢ 基于划分的方法(e.g., K近邻) ➢ 基于模型的方法(不细讲) 分类效果评估

示例、定义与范畴 历些毛子种枝大等 XIDIAN UNIVERSITY 一般性分类任务举例 口举例 ■形状分组(已知四类) 第一类:圆 第二类:长方形 A 第三类:三角形 第四类:不规侧 各自应该属于哪个类? 第一类、第二类、 第三类、第四类:已知标记 ←→对比,聚类问题中是没有任何已知标记的 2017/5/6 软件工程系
2017/5/6 软件工程系 示例、定义与范畴 一般性分类任务举例 举例 形状分组(已知四类) 3 第一类:圆 第三类:三角形 第二类:长方形 第四类:不规则 各自应该属于哪个类? 第一类、第二类、第三类、第四类:已知标记 对比,聚类问题中是没有任何已知标记的

示例、定义与范畴 历些毛子科枚大多 XIDIAN UNIVERSITY →范畴与示例 口一般性分类 ■事先已知部分样本的类别,然后将新样本划分到相应别中的 问题 口文本分类 已知一部分文档的类别,根据给定的新文本的内容,将其判 别为事先确定的若干个类别中的某一类或某几类的过程 井监贸微整美 热 边免捉 方入市党委书记易人 失散19年,儿子问家 民族复兴 新闻类 体育类 应该属于哪一类?
2017/5/6 软件工程系 一般性分类 事先已知部分样本的类别,然后将新样本划分到相应别中的 问题 文本分类 已知一部分文档的类别,根据给定的新文本的内容,将其判 别为事先确定的若干个类别中的某一类或某几类的过程 示例、定义与范畴 范畴与示例 新闻类 体育类 应该属于哪一类?

示例、定义与范畴 历些毛子种枝大等 XIDIAN UNIVERSITY →范畴与示例 口文本分类与信息检索的关系 ■每一本信息检索的教材中都会讲到“文本分类 >相似网页归类(主要由文本组成, →发现相似内容的网页,组成相似网页组 →提升搜索体验,提升搜索结果的多样性 →对于后台,节省计算时间,提高排序/建索引效率 >垃圾网页识别 中360安全中心量您 >病毒/异常网页识别 您访问的是木马网站 >垃圾邮件识别 当前页面带有木马或病毒,木马或病毒会给的电脑安全造成威胁,建议立即关闭此页面。 > 异常网页文本内容识 您访问g的网址是:http://www1com/ 2017/5/6 忽缩警告,继续访问 关闭页面
2017/5/6 软件工程系 示例、定义与范畴 范畴与示例 文本分类与信息检索的关系 每一本信息检索的教材中都会讲到“文本分类” ➢ 相似网页归类 (主要由文本组成) 发现相似内容的网页,组成相似网页组 提升搜索体验,提升搜索结果的多样性 对于后台,节省计算时间,提高排序/建索引效率 5 ➢ 垃圾网页识别 ➢ 病毒/异常网页识别 ➢ 垃圾邮件识别 ➢ 异常网页文本内容识别

示例、定义与范畴 历些毛子科枚大》 XIDIAN UNIVERSITY →范畴与示例 ▣文本分类与信息检索的关系 >我们不是在学《搜索引擎使用手册》或《搜索引擎使用技巧》 面向人民群众v.s.面向专业数据人员 >我们也不是在学《搜索引擎优化技巧(SEO)》 面向网站运营人员V.s.面向专业数据人员 Seorch Ege SE0教程 高‘ 达人述DUMMIES 援索引擎优化入门与进阶 接亲警优化(SE0】 方法与技巧) 电脑上网叠 SEO te mard m w出 清大系社 多A2 2017/5/6 软件工程系
2017/5/6 软件工程系 示例、定义与范畴 范畴与示例 文本分类与信息检索的关系 ➢ 我们不是在学《搜索引擎使用手册》或《搜索引擎使用技巧》 - 面向人民群众 v.s. 面向专业数据人员 ➢ 我们也不是在学《搜索引擎优化技巧(SEO)》 - 面向网站运营人员 v.s. 面向专业数据人员

文本分类任务 面些毛子种枝大等 XIDIAN UNIVERSITY )文档表示 口预处理:分词(中文) ■对文档进行分词,去掉与分类关联不大的词汇(如停用词) > 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 > 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 口文档表示(通用方法) 词表 ■向量空间法→将文档表示成一个向量 词频表示法 人民:10 日报:11 引领:12 位置编号 01234567 89… 民族:13 引领民族复兴的战 这个D0c=(14,15,10,10,11,11,13,… 复兴:14 战略:15
2017/5/6 软件工程系 文本分类任务 文档表示 预处理:分词(中文) 对文档进行分词,去掉与分类关联不大的词汇(如停用词) ➢ 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 ➢ 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 文档表示(通用方法) 向量空间法 将文档表示成一个向量 ➢ 词频表示法 词表 … 人民:10 日报:11 引领:12 民族:13 复兴:14 战略:15 … 0 1 2 3 4 5 6 7 8 9… (14, 15, 10, 10, 11, 11, 13, …) 位置编号 这个Doc=

文本分类任务 历些莞子种拔大 XIDIAN UNIVERSITY )文档表示 ▣常用词表构建方法 ■通用电子词典 Pocket. LONGMAN Oxford PRONUNCIATION DICTIONARY >词汇量大,全面 ENGLISH Collegiate Dictionary Dictionary C Wells eventh Elici >同时,也过于全面 ■特定领域词库 >市场的要求:电信、旅游、教育、 互联网等领域均有自己的词汇 > 学科的要求:化学、物理、数学、医药、生物、通信等学科也有 自己的词汇 > 针对性强,需要积累与收集 Medical Terminology CHEMICAL PHARMACY Systems ■用户贡献(评论与标签) TECHNOLOGY TERMINOLOGY 2017/5/6
2017/5/6 软件工程系 文本分类任务 文档表示 常用词表构建方法 通用电子词典 ➢ 词汇量大,全面 ➢ 同时,也过于全面 特定领域词库 ➢ 市场的要求:电信、旅游、教育、互联网等领域均有自己的词汇 ➢ 学科的要求:化学、物理、数学、医药、生物、通信等学科也有 自己的词汇 ➢ 针对性强,需要积累与收集 用户贡献(评论与标签)

文档表示与特征选择 历粤毛子种技大》 XIDIAN UNIVERSITY →特征选择 口特征选择 >去除了的、啊、了、么之后,哪些词更能代表一个类? >举例 体育类 这些词:足球、篮球、斯诺克、奥运、NBA、博尔特,… 七边晚报 图为狐 入市党委书记易人 新闻类 失散19年,儿了叫家 这些词:会议,政策,战略,报告,主席,市长
2017/5/6 软件工程系 文档表示与特征选择 特征选择 特征选择 ➢ 去除了的、啊、了、么之后 ,哪些词更能代表一个类? ➢ 举例 这些词:足球、篮球、斯诺克、奥运、NBA、博尔特,… 这些词:会议,政策,战略,报告,主席,市长,… 新闻类 体育类

文档表示与特征选择 历些毛子科枝大多 XIDIAN UNIVERSITY →特征选择 ■缺点 >人工指定耗时费力,不一定准确 >如何应对新文档的加入? ■如何将这些代表某一类的词自动地选出来呢? >一种方法:在每一个类中计算每一个词的词频值 想法:某词t在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 两个要素: 1)一个词在当前类别中出现了多少次 2)有多少类别含有这个词 2017/5/6 软件工程系
2017/5/6 软件工程系 文档表示与特征选择 特征选择 缺点 ➢ 人工指定耗时费力,不一定准确 ➢ 如何应对新文档的加入? 如何将这些代表某一类的词自动地选出来呢? ➢ 一种方法:在每一个类中计算每一个词的词频值 - 想法:某词 t 在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 - 两个要素: 1) 一个词在当前类别中出现了多少次 2) 有多少类别含有这个词
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)课程回顾与复习(主讲:徐悦甡).pdf
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)语义网(Semantic Web).pdf
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)文本聚类(Text Clustering).pdf
- 西安电子科技大学:《构件与中间件技术》课程教学资源(课件讲稿)第二部分 Java EE与EJB 2.2 Java Web工程.pdf
- 西安电子科技大学:《构件与中间件技术》课程教学资源(课件讲稿)第一部分 软件构件与中间件(主讲:徐悦甡).pdf
- 西安电子科技大学:计算机软件开发模式和工具与标准发展历程(主讲:徐悦甡).pdf
- 上海海洋大学:信息学院各专业课程教学大纲(汇编).pdf
- 南京农业大学:《数据库系统原理》课程教学大纲.pdf
- 南京农业大学:《数据结构实验》课程教学大纲.pdf
- 南京农业大学:《数据库系统原理实验》课程教学大纲.pdf
- 南京农业大学:《面向对象程序设计实验》课程教学大纲.pdf
- 南京农业大学:《软件工程》课程教学大纲.pdf
- 南京农业大学:《Web 应用系统开发》课程教学大纲.pdf
- 《人工智能》课程教学资源(参考资料)基于Jupyter Notebook的Tensorflow深度学习教程.pdf
- 中国人民大学:《人工智能》课程教学资源(作业摘选)SCIgen生成文献的检测方案.pdf
- 中国人民大学:《人工智能》课程教学资源(作业摘选)人工智能课程总结.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第十章 后台默默的劳动者——探究服务.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第九章 看看精彩的世界——使用网络技术.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第八章 丰富你的程序——运用手机多媒体.pdf
- 私立华联学院:《Android软件开发》课程电子教案(课件讲稿)第七章 跨程序共享数据——探究内容提供器.pdf
- 西安电子科技大学:《信息检索》课程教学资源(课件讲稿)推荐系统(Recommender System).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)课程概述 Parallel Computing(主讲:徐悦甡).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)并行计算机系统结构模型(第一部分,含第一次作业).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)并行计算机系统结构(第二部分).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)并行计算机性能测评.pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)并行程序设计基础与样例(第一部分).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)并行程序设计基础与样例(第二部分,交互问题与计算圆周率).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)Java并发程序设计(并行程序设计基础与样例).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)Java并发与并行程序设计.pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)Python并发与并行程序设计(语言基础部分).pdf
- 西安电子科技大学:《并行计算》课程教学资源(课件讲稿)Python并发编程部分(Python并发程序设计).pdf
- 西安电子科技大学:《数据通信与计算机网络》课程教学资源(PPT课件)HDLC帧结构——高级数据链路控制协议(帧结构).pptx
- 西安电子科技大学:《数据通信与计算机网络》课程教学资源(PPT课件)数字数据通信技术——异步与同步传输.pptx
- 西安电子科技大学:《信息检索》课程教学资源(讲义)文本挖掘中的概率图模型、矩阵方法与变量求解.pdf
- 《机器学习》课程教学资源(讲稿)Academic Paper Writing for Starters.pdf
- 《机器学习》课程教学资源(讲稿)The Structure of an Academic Paper in CS(for Starters).pdf
- 《机器学习》课程教学资源(讲稿)推荐系统入门——任务、特征与方法概述(Recommender System).pdf
- 《机器学习》课程教学资源(讲稿)自然语言理解、主题建模与基于NN的语言生成 Natural Language Processing, Topic Modeling and Neural Text Generation.pdf
- 《机器学习》课程教学资源(讲稿)基于上下文的服务推荐 Context-Aware Service Recommendation.pdf
- 《机器学习》课程教学资源(讲稿)对(文本)聚类中一些问题的讨论(Thinking in Clustering).pdf