《统计自然语言处理》课程教学资源(PPT课件讲稿)第7章 汉语自动分词与词性标注

第7章汉语自动分词与词性标注
第7章 汉语自动分词与词性标注

本章主要内容 ■7.1汉语自动分词中的基本问题 ■7.2基本分词方法 ·73未登录词处理方法概述 ■7.4基于多特征的命名实体识别模型 ■7.5词性标注 ■7.6词性标注的一致性检查与自动校对 ■7.7汉语分词与词性标注系统评测
本章主要内容 ◼ 7.1 汉语自动分词中的基本问题 ◼ 7.2 基本分词方法 ◼ 7.3 未登录词处理方法概述 ◼ 7.4 基于多特征的命名实体识别模型 ◼ 7.5 词性标注 ◼ 7.6 词性标注的一致性检查与自动校对 ◼ 7.7 汉语分词与词性标注系统评测

7.1汉语自动分词中的基本问题 期 汉语自动分词就是让计算机系统在汉语文本中的词 与词之间自动加上空格或其他边界标记。 看似简单,却使人扼腕感叹
7.1 汉语自动分词中的基本问题 ◼ 汉语自动分词就是让计算机系统在汉语文本中的词 与词之间自动加上空格或其他边界标记。 ◼ 看似简单,却使人扼腕感叹

7.1.1汉语分词规范问题(1/2) ■“词”的概念(词是什么一词的抽象定义、什么是 词一词的具体界定)飘忽不定,原因: 。单字词与词素之间的划界,如:新华社25日讯 。词与短语的划界,如:花草、湖边、鸭蛋、小鸡、担 水、房项、一层、翻过 。对“词”的认识,普通人和语言学家的标准也有较大 差异
7.1.1 汉语分词规范问题(1/2) ◼ “词”的概念(词是什么—词的抽象定义、什么是 词—词的具体界定)飘忽不定,原因: ⚫ 单字词与词素之间的划界,如:新华社25日讯 ⚫ 词与短语的划界,如:花草、湖边、鸭蛋、小鸡、担 水、房顶、一层、翻过 ⚫ 对“词”的认识,普通人和语言学家的标准也有较大 差异

7.1.1汉语分词规范问题(2/2) 1992年国家标准局颁布了作为国家标准的《信息处 理用现代汉语分词规范》[刘源等,1994;刘开瑛, 2000] ·大部分规定是通过举例和定性描述来体现 ◆如:规范4.2规定:二字或三字词以及结合紧密、使用 稳定的二字或三字词组,一律为分词单位 。规定的操作尺度难把握 ·因而《规范》并没有从根本上统一对汉语词的认识
◼ 1992年国家标准局颁布了作为国家标准的《信息处 理用现代汉语分词规范》[刘源等,1994;刘开瑛, 2000] ⚫ 大部分规定是通过举例和定性描述来体现 ◆ 如:规范4.2规定:二字或三字词以及结合紧密、使用 稳定的二字或三字词组,一律为分词单位 ⚫ 规定的操作尺度难把握 ⚫ 因而《规范》并没有从根本上统一对汉语词的认识 7.1.1 汉语分词规范问题(2/2)

7.1.2歧义切分问题(1/8) 梁南元(1987a)最早对歧义字段进行了比较系统的 考查,他定义了两种基本的切分歧义类型。 ■定义7-1(交集型切分歧义)汉字串A]B称作交集型 切分歧义,如果满足AJ、JB同时为词(A、J、B分 别为汉字串)。此时汉字串]称作交集串。 。交集型切分歧义:“结合成” ◆结合成 ◆结合成 ·大学生、研究生物、从小学起、为人民工作、中国产 品质量、部分居民生活水平
7.1.2 歧义切分问题(1/8) 梁南元(1987a)最早对歧义字段进行了比较系统的 考查,他定义了两种基本的切分歧义类型。 ◼ 定义7-1(交集型切分歧义) 汉字串AJB称作交集型 切分歧义,如果满足AJ、JB同时为词(A、J、B分 别为汉字串)。此时汉字串J称作交集串。 ⚫ 交集型切分歧义:“结合成” ◆ 结合|成 ◆ 结|合成 ⚫ 大学生、研究生物、从小学起、为人民工作、中国产 品质量、部分居民生活水平……

7.1.2歧义切分问题(2/8) ■定义7-2(链长)一个交集型切分歧义所拥有的交 集串的集合称为交集串链,它的个数称为链长。 。“结合成分子” ◆“结合”、“合成”、“成分”、“分子”均构成词 ◆交集串为{合,成,分},因此,链长为3 。“中国产品质量” ◆“中国”、“国产”、“产品”、“品质”、“质量” ◆交集串为{国,产,品,质},因此,链长为4 。“部分居民生活水平” ◆链长为6
◼ 定义7-2(链长) 一个交集型切分歧义所拥有的交 集串的集合称为交集串链,它的个数称为链长。 ⚫ “结合成分子” ◆ “结合” 、 “合成” 、 “成分” 、 “分子”均构成词 ◆ 交集串为{合,成,分},因此,链长为3 ⚫ “中国产品质量” ◆ “中国” 、 “国产” 、 “产品” 、 “品质” 、 “质量” ◆ 交集串为{国,产,品,质},因此,链长为4 ⚫ “部分居民生活水平” ◆ 链长为6 7.1.2 歧义切分问题(2/8)

7.1.2歧义切分问题(3/8) ■定义7-3(组合型切分歧义)汉字串AB称作多义组 合型切分歧义,如果满足A、B、AB同时为词。 。“起身” ◆他站起|身来。 。他明天起身去北京。 。门把手弄坏了。 ◆门川把手弄坏了。 ◆门把手弄坏了。 。将来、现在、才能、学生会.…
◼ 定义7-3(组合型切分歧义) 汉字串AB称作多义组 合型切分歧义,如果满足A、B、AB同时为词。 ⚫ “起身” ◆ 他站|起|身|来。 ◆ 他明天|起身|去北京。 ⚫ 门把手弄坏了。 ◆ 门|把|手|弄坏了。 ◆ 门|把手|弄坏了。 ⚫ 将来、现在、才能、学生会…… 7.1.2 歧义切分问题(3/8)

7.1.2歧义切分问题(4/8) ■梁南元梁南元(1987)曾经对一个含有48,092字的 自然科学、社会科学样本进行了统计,结果交集型 切分歧义有518个,多义组合型切分歧义有42个。 据此推断,中文文本中切分歧义的出现频度约为1.2 次/100字,交集型切分歧义与多义组合型切分歧义 的出现比例约为12:1
◼ 梁南元 梁南元(1987)曾经对一个含有48,092字的 自然科学、社会科学样本进行了统计,结果交集型 切分歧义有518个,多义组合型切分歧义有42个。 据此推断,中文文本中切分歧义的出现频度约为1.2 次/100字,交集型切分歧义与多义组合型切分歧义 的出现比例约为12:1。 7.1.2 歧义切分问题(4/8)

7.1.2歧义切分问题(5/8) 文献[刘挺等,1998a]的调查却显示了与梁南元截然 相反的结果:汉语文本中交集型切分歧义与多义组 合型切分歧义的出现比例约为1:22。 ■孙茂松认为:造成这种情形的原因在于,定义7-3有 疏漏。因此,孙茂松等(2001)曾经猜测,加上一 条上下文语境限制才真正反映了梁南元的本意
◼ 文献[刘挺等,1998a]的调查却显示了与梁南元截然 相反的结果:汉语文本中交集型切分歧义与多义组 合型切分歧义的出现比例约为1:22。 ◼ 孙茂松认为:造成这种情形的原因在于,定义7-3有 疏漏。因此,孙茂松等(2001)曾经猜测,加上一 条上下文语境限制才真正反映了梁南元的本意。 7.1.2 歧义切分问题(5/8)
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)搜索引擎技术 SearchEngine.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索概述.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息检索模型 IRModel.pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)信息过滤(主讲:刘挺).pdf
- 哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)文本分类 Text Categorization(主讲:刘挺).pdf
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Essential Background.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Retrieval Models.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Crawling the Web.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Web Search.ppt
- 北京大学:《信息检索》课程教学资源(PPT课件讲稿)Course Overview(主讲:闫宏飞).ppt
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 01 Introdution(主讲:吉建民).pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 15 智能机器人系统介绍.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 14 Reinforcement Learning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 13 神经网络与深度学习.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 09 AI Planning.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 08 First-Order Logic and Inference in FOL.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 11 马尔可夫决策过程.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 10 Uncertainty and Bayesian Networks.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 07 Logical Agents.pdf
- 中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 06 Game Playing.pdf
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)01 Introduction(主讲:彭波)The CCF Advanced Disciplines Lectures.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)02 Link Analysis.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)03 Web Spam.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)04 Recommendation System.ppt
- 北京大学:《信息检索》课程PPT课件讲稿(自然语言处理)05 Infrastructure and Cloud.ppt
- 河南科技学院:信息工程学院本科课程教学大纲汇编(计算机科学与技术专业).pdf
- 广东茂名农林科技职业学院:计算机网络技术人才培养方案(2020级).pdf
- 广东茂名农林科技职业学院:计算机网络技术专业人才培养方案(2021级).pdf
- 广东茂名农林科技职业学院:动漫制作技术专业人才培养方案(2020级).pdf
- 南京农业大学:《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming.pdf
- 广东茂名农林科技职业学院:电子商务专业人才培养方案(2019级).pdf
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第一章 绪论(主讲:袁平波).pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第二章 关系数据库.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第四章 关系数据库设计理论.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第三章 关系数据库标准查询语言SQL.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第五章 数据库的保护.pps
- 中国科学技术大学:《数据库基础》课程教学资源(PPT课件讲稿)第六章 数据库设计、第七章 关系数据库管理系统实例、第八章 现代数据库技术及进展.pps
- 《数据库基础》课程教学资源(PPT课件讲稿)Delphi 7.0开发示例.pps
- 《数据库基础》课程教学资源(参考资料)数据库在虚拟机openEuler上安装部署openGauss数据库指导手册(openEuler-openGauss).pdf
- 《数据库基础》课程教学资源(参考资料)数据库在虚拟机CentOS上安装部署openGauss数据库指导手册.pdf