哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)文本分类 Text Categorization(主讲:刘挺)

文本分类 (Text Categorization) 刘挺 哈工大信息检索研究室 2004年秋
文本分类 (Text Categorization) 刘挺 哈工大信息检索研究室 2004年秋

提纲 ■文本分类概述 ■特征提取 ■主要分类算法 ·Rocchio法 ▣贝叶斯 ·K近邻 。决策树
提纲 文本分类概述 特征提取 主要分类算法 Rocchio 法 贝叶斯 K近邻 决策树

文本分类概述
文本分类概述

分类的概念 ■给定: ■一个实例的描述,XX是实例空间 ·一个固定的文本分类体系:C={C1,C2.G} ·由于类别是事先定义好的,因此分类是有指 导的(或者说是有监督的) ■确定: ■实例的类别(x)ECG(x)是一个分类函 数,定义域是X,值域是C
分类的概念 给定: 一个实例的描述, x∈ X, X是实例空间 一个固定的文本分类体系: C={ c1, c2 , … cn } 由于类别是事先定义好的,因此分类是有指 导的(或者说是有监督的) 确定: 实例 x的类别 c( x) ∈C, c( x) 是一个分类函 数,定义域是 X ,值域是 C

说明 分类模式 。2类问题, 属于或不属于(binary) ■于 多类问题,多个类别(multi--class), 可拆分成2 类问题 ·一个文本可以属于多类(muti-label) ■分类体系一般人工构造 ·政治、体育、军事 。中美关系、恐怖事件 ■很多分类体系:Reuters分类体系、中图分类
说明 分类模式 2类问题,属于或不属于(binary) 多类问题,多个类别(multi-class),可拆分成2 类问题 一个文本可以属于多类(multi-label) 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 很多分类体系: Reuters分类体系、中图分类

中图分类法 A类马列主义、毛泽东思想 TB类一般工业技术 B类 哲学 TD类矿业工程 C类社会科学总论 TE类石油、天然气工业 D类政治、法律 TF类冶金工业 E类军事 TG类金属学、金属工艺 F类经济 TH类机械、仪表工艺 G类文化、科学、教育、体育 T类武器工业 H类语言、文字 TK类动力工业 类文学 TL类原子能技术 类 艺术 TM类电工技术 K类 历史、地理 TN类无线电电子学、电信技术 N类自然科学总论 TP类自动化技术、计算技术 0类 数理科学和化学 TQ类化学工业 P类 天文学、地球科学 TS类轻工业、手工业 Q类生物科学 TU类建筑科学 R类医药、卫生 V类水利工程 S类农业科学 U类 交通运输 V类 航空、航天 X类 环境科学、劳动保护科学(安全科学)
中图分类法 A类 马列主义、毛泽东思想 B类 哲学 C类 社会科学总论 D类 政治、法律 E类 军事 F类 经济 G类 文化、科学、教育、体育 H类 语言、文字 I类 文学 J类 艺术 K类 历史、地理 N类 自然科学总论 O类 数理科学和化学 P类 天文学、地球科学 Q类 生物科学 R类 医药、卫生 S类 农业科学 U类 交通运输 V类 航空、航天 X类 环境科学、劳动保护科学(安全科学) TB类 一般工业技术 TD类 矿业工程 TE类 石油、天然气工业 TF类 冶金工业 TG类 金属学、金属工艺 TH类 机械、仪表工艺 TJ类 武器工业 TK类 动力工业 TL类 原子能技术 TM类 电工技术 TN类 无线电电子学、电信技术 TP类 自动化技术、计算技术 TQ类 化学工业 TS类 轻工业、手工业 TU类 建筑科学 TV类 水利工程

系统结构 训练数据 预处理 标注工具 文本 模型数据 机器学习工具 标注的样本 新数据 预处理 分类工具 类别 文本
系统结构 标注工具 模型数据 机器学习工具 标注的样本 分类工具 类别 预处理 预处理 训练数据 文本 新数据 文本

分类的一般过程 收集训练集和测试集,对文本进行预处 理 ■对文本类别进行人工标注 ■对文本进行特征提取 ■训练(学习) ■评价 ·精确率、召回率、F1 。宏平均,微平均
分类的一般过程 收集训练集和测试集,对文本进行预处 理 对文本类别进行人工标注 对文本进行特征提取 训练(学习) 评价 精确率、召回率、F1 宏平均,微平均

文本分类示例 "planning language 测试数据 proof intelligence" (AI) (Programming) (HCI) 类别 ML Planning Semantics Garb.Coll. Multimedia GUI learning planning programming garbage intelligence temporal semantics collection algorithm reasoning language memory 训练数据 reinforcement plan proof... optimization network... language... region
文本分类示例 “planning language proof intelligence” ML Semantics Garb.Coll. Multim edia GUI 测试数据 (AI) (Programming) (HCI) 类别 Planning garbage collection memory optimization region... programming semantics language proof... planning temporal reasoning plan language... learning intelligence algorithm reinforcement network... ... ... 训练数据

预处理 去掉网页中的导航信息 ■去掉HTL网页中的tag标记 ■(中文)分词、词性标注、短语识别、 . ■ 去除停用词和词根还原(stemming) ■数据清洗:去掉不合适的噪声文档或文档内垃 圾数据 0。●00
预处理 去掉网页中的导航信息 去掉HTML网页中的tag标记 (中文)分词、词性标注、短语识别、… 去除停用词和词根还原(stemming) 数据清洗:去掉不合适的噪声文档或文档内垃 圾数据 ⋅⋅⋅⋅⋅⋅
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Essential Background.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Retrieval Models.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Crawling the Web.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Web Search.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Course Overview(主讲:闫宏飞).ppt
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 01 Introdution(主讲:吉建民).pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 15 智能机器人系统介绍.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 14 Reinforcement Learning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 13 神经网络与深度学习.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 09 AI Planning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 08 First-Order Logic and Inference in FOL.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 11 马尔可夫决策过程.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 10 Uncertainty and Bayesian Networks.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 07 Logical Agents.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 06 Game Playing.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 05 Constraint Satisfaction Problems.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 04 Informed Search.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 03 Solving Problems by Searching.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 02 Intelligent Agents.pdf
- 《Artificial Intelligence:A Modern Approach》教学资源(PPT课件,英文版)Chapter 9-Inference in first-order logic.ppt
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息过滤(主讲:刘挺).pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索模型 IRModel.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索概述.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)搜索引擎技术 SearchEngine.pdf
- 《统计自然语言处理》课程教学资源(PPT课件讲稿)第7章 汉语自动分词与词性标注.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)01 Introduction(主讲:彭波)The CCF Advanced Disciplines Lectures.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)02 Link Analysis.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)03 Web Spam.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)04 Recommendation System.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)05 Infrastructure and Cloud.ppt
- 河南科技学院:信息工程学院本科课程教学大纲汇编(计算机科学与技术专业).pdf
- 广东茂名农林科技职业学院:计算机网络技术人才培养方案(2020级).pdf
- 广东茂名农林科技职业学院:计算机网络技术专业人才培养方案(2021级).pdf
- 广东茂名农林科技职业学院:动漫制作技术专业人才培养方案(2020级).pdf
- 南京农业大学:《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming.pdf
- 广东茂名农林科技职业学院:电子商务专业人才培养方案(2019级).pdf
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第一章 绪论(主讲:袁平波).pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第二章 关系数据库.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第四章 关系数据库设计理论.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第三章 关系数据库标准查询语言SQL.pps