哈尔滨工业大学:开放式中文实体关系抽取研究(导师:秦兵)

HIT-SCIR 大纲 绪论 面向句子级的开放式实体关系抽取 面向互联网的开放式实体关系抽取 开放式实体关系类型体系自动构建 论 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 大纲 ◼ 绪论 ◼ 面向句子级的开放式实体关系抽取 ◼ 面向互联网的开放式实体关系抽取 ◼ 开放式实体关系类型体系自动构建 ◼ 结论

HIT-SCIR 绪论 问题的提出 。预先定义关系类恐局限 人工定义,类型入 。实体关系往往Open词描述 关系指示词 此次爱zm 女战士,就是华人女星李冰冰饰演的 艾达·王。 媒体试图联系徐妈妈求证,但电话一直处于人工秘书台状态,汪 小菲妈妈张兰也始终拒接电话。 三元组识别 a(李冰冰,饰演,艾达王) a(汪小菲,妈妈,张兰) 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 绪论 ◼ 问题的提出 ⚫ 预先定义关系类型局限性 ◼ 人工定义,类型少,限定域,移植性差 ⚫ 实体关系往往由上下文中的关系指示词描述 ◼ 关系指示词主要是动词和名词 ⚫ 此次爱丽丝的身边多了一位女战士,就是华人女星李冰冰饰演的 艾达·王。 ⚫ 媒体试图联系徐妈妈求证,但电话一直处于人工秘书台状态,汪 小菲妈妈张兰也始终拒接电话 。 ⚫ 三元组识别 ◼ (李冰冰,饰演,艾达·王) ◼ (汪小菲,妈妈,张兰) Open IE

HIT-SCIR 绪论 研究内容 句子 大规模网络文本 ↓ 第2章 第3章 面向句子的开放式中文实面向互联网的开放式中文实 关系三元 体关系抽取 体关系抽取 组 第5章 第4章 开放式关系抽取平台 关系类型体系自动构建 关系类型 体系 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 绪论 ◼ 研究内容 第2章 面向句子的开放式中文实 体关系抽取 第3章 面向互联网的开放式中文实 体关系抽取 第4章 关系类型体系自动构建 关系类型 体系 句子 大规模网络文本 关系三元 组 第5章 开放式关系抽取平台

HIT-SCIR 大纲 绪论 面向句子级的开放式实体关系抽取 面向互联网的开放式实体关系抽取 开放式实体关系类型体系自动构建 论 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 大纲 ◼ 绪论 ◼ 面向句子级的开放式实体关系抽取 ◼ 面向互联网的开放式实体关系抽取 ◼ 开放式实体关系类型体系自动构建 ◼ 结论

(R HIT-SCIR 面向句子级的开放式实体关系抽取 基于有指导的机器学习方法 。语料预处理 。语料分析 。先识别实体对的方法 先识别关系指示词的方法 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 面向句子级的开放式实体关系抽取 ◼ 基于有指导的机器学习方法 ⚫ 语料预处理 ⚫ 语料分析 ⚫ 先识别实体对的方法 ⚫ 先识别关系指示词的方法

HIT-SCIR 基于有指导的机器学习方法 语料以及预处理 。 Ontonotes40中选取1000篇文本 分词、命名实体、共指关系、实体关系 使用ltp工具对其进行词性标注 正例(包含关系的实体对)3656个,反例(不包含关系)95401个 。过滤反例 利用共指关系 。如果两个实体存在共指,那么这两个实体不存在实体关系 正例3656个,反例86323个 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(1) ◼ 语料以及预处理 ⚫ Ontonotes4.0中选取1000篇文本 ◼ 分词、命名实体、共指关系、实体关系 ◼ 使用ltp工具对其进行词性标注 ◼ 正例(包含关系的实体对)3656个,反例(不包含关系)95401个 ⚫ 过滤反例 ◼ 利用共指关系 ⚫ 如果两个实体存在共指,那么这两个实体不存在实体关系 ◼ 正例3656个,反例86323个

HIT-SCIR 基于有指导的机器学习方法(2) 语料分析 936%的关系实例存在关系指示词 使用三元组来描述一个关系实例是可行的 其中大部分关系指示词在两个实体中间或者右边 占有关系指示词实例的9594 哈尔滨工业大学RG校长nwo王树国p 梁朝伟P是刘嘉玲PR的老公 o 尝试了两种不同的方法 。先识别实体对的方法 。先识别关系指示词的方法 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(2) ◼ 语料分析 ⚫ 93.6%的关系实例存在关系指示词 ◼ 使用三元组来描述一个关系实例是可行的 ◼ 其中大部分关系指示词在两个实体中间或者右边 ⚫ 占有关系指示词实例的95.94% ⚫ 哈尔滨工业大学校长王树国。 ⚫ 梁朝伟是刘嘉玲的老公。 ◼ 尝试了两种不同的方法 ⚫ 先识别实体对的方法 ⚫ 先识别关系指示词的方法

(RMT.scin 基于有指导的机器学习方法(3) n先识别实体对的方法 最大熵模型判断实体之间是否有关系 特征 实体类型 PER LOC. ORG. TIME 实体的词序列(特征泛化) feature(哈尔滨工业大学)={哈尔滨,工业,大学} 。实体上下文的词性 。CRF模型识别关系指示词 如果实体对存在关系,使用该模型识别关系指示词 特征 词、词性、是否是实体 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(3) ◼ 先识别实体对的方法 ⚫ 最大熵模型判断实体之间是否有关系 ◼ 特征 ⚫ 实体类型 ◼ PER, LOC, ORG, TIME ⚫ 实体的词序列(特征泛化) ◼ Feature(哈尔滨工业大学) = {哈尔滨,工业,大学} ⚫ 实体上下文的词性 ⚫ CRF模型识别关系指示词 ◼ 如果实体对存在关系,使用该模型识别关系指示词 ◼ 特征 ⚫ 词、词性、是否是实体

( R HIT-SCIR 习近平 习近平 中华人民共和国中央军事委员会 中华人民共和国中央军事委员会 胡锦涛 胡锦涛 特征集合} 特征集 特征集合} 特征抽取 实体对过滤 习近平 中华人民共和国中央军事委员会 习近平当选为中华人民共和国中央率事委员会主席,与胡锦特征集合 实体识别 识别关系指 习近平 习近平当选为中华人民共和国中央军事委员生中华人民共和国中央军事委员会 主席 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。 习近平 胡锦涛 {特征集合} 中华人民共和国中央军事委员会 胡锦涛 {特征集合} 实体识别 特征抽取 实体对过滤 识别关系指 示词 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。 习近平 中华人民共和国中央军事委员会 {特征集合} 习近平 中华人民共和国中央军事委员会 主席 习近平 中华人民共和国中央军事委员会 {特征集合}

HIT-SCIR 基于有指导的机器学习方法(4) 先识别实体对方法的实验结果 最大熵模型判断实体之间是否有关系 类别准确率(%)召回率(%)F值(%) CR存在关系 21 31 两 不存在关系 98 评测标准准确率(%)召回率(%F值(%) 评测标准准确率(%)召回率(%)F值(%) 标注结果 47.10 15.32 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(4) ◼ 先识别实体对方法的实验结果 ⚫ 最大熵模型判断实体之间是否有关系 ◼ 训练数据不平衡导致正例召回率低 ⚫ CRF模型识别关系指示词 ⚫ 两步级联后的实验结果 类别 准确率(%) 召回率(%) F值(%) 存在关系 62 21 31 不存在关系 96 99 98 评测标准 准确率(%) 召回率(%) F值(%) 标注结果 评测标准 准确率(75.98%) 召回率(72.96%) F值(74.44%) 标注结果 47.10 15.32 23.12
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 兰州大学:《SOA & Web Service》教学资源(PPT课件讲稿)Lecture 5 Web Service Program(苏伟).ppt
- 中国科学技术大学:《高级操作系统 Advanced Operating System》课程教学资源(PPT课件讲稿)第四章 分布式进程和处理机管理(主讲:熊焰).ppt
- 香港浸会大学:《网络管理 Network Management》课程教学资源(PPT课件讲稿)Chapter 02 Network Management Model.ppt
- 对等网络 Peer-to-Peer Networks(P2P).ppt
- Threads, SMP, and MicroKernels.ppt
- Object-Oriented Programming(Java).ppt
- 《编译原理》课程教学资源(PPT课件讲稿)第三章 语法分析.ppt
- 《操作系统》课程教学资源(PPT课件)第六章 设备管理 Devices Management.ppt
- 《计算机组装维修及实训教程》课程教学资源(PPT课件)第2章 中央处理器.ppt
- 《轻松学习C语言》教学资源(PPT课件讲稿,繁体版,共十二章).pptx
- 西安电子科技大学:《Mobile Programming》课程PPT教学课件(Android Programming)Lecture 7 数据持久化 Data Persistence.pptx
- 《数据结构》课程教学资源(PPT课件讲稿)第四章 串.ppt
- 四川大学:《数据库技术》课程教学资源(PPT课件讲稿)第1章 数据库技术概论.ppt
- Urandaline Investments The Perils of Down Under:Chinese Investment in Australia.pptx
- 《计算机网络》课程教学资源(PPT课件讲稿)第六章 IP路由.ppt
- 《微型计算机原理及应用》课程教学资源(PPT课件讲稿)第2章 微处理器.ppt
- Landmark-Based Speech Recognition.ppt
- 中国科学技术大学:《现代密码学理论与实践》课程教学资源(PPT课件讲稿)第9章 公钥密码学与RSA.pptx
- 中国科学技术大学:《数据结构及其算法》课程电子教案(PPT课件讲稿)第六章 二叉树和树.pps
- 计算机外设及电源故障处理(PPT课件讲稿).ppt
- 《计算机控制技术》课程教学资源(PPT课件讲稿)第二章 模拟量输出通道.ppt
- 中国科学技术大学:《并行算法实践》课程教学资源(PPT课件讲稿)上篇 并行程序设计导论 单元I 并行程序设计基础 第三章 并行程序设计简介.ppt
- 《多媒体技术基础》课程教学资源(PPT课件讲稿)单元1 多媒体概述.ppt
- 广西医科大学:《计算机网络 Computer Networking》课程教学资源(PPT课件讲稿)Chapter 18 NETWORK DESIGN AND IMPLEMENTATION.pptx
- 《计算机网络》课程实验教学大纲.pdf
- 东南大学:《C++语言程序设计》课程教学资源(PPT课件讲稿)Chapter 11 Operator Overloading; String and Array Objects(主讲:东方).ppt
- 《大学计算机基础》课程教学资源(PPT课件讲稿)第四章 Excel 2007电子表格.ppt
- 进程(PPT课件讲稿)Processes.pptx
- 电子科技大学:《汇编语言程序设计》课程教学资源(PPT课件)第一章 基础知识(主讲:詹瑾瑜).ppt
- 《数据库系统概论》课程教学资源(PPT课件讲稿)第六章 数据库设计.ppt
- 中国科学技术大学:《计算机体系结构》课程教学资源(PPT课件讲稿)MSI、MESI、分布式共享存储器体系结构、Models of Memory Consistency.pptx
- 《汇编语言》课程教学资源(PPT课件讲稿)第6章 子程序.ppt
- 中国科学技术大学:《网络信息安全 NETWORK SECURITY》课程教学资源(PPT课件讲稿)第二章 数据加密技术基础.ppt
- 北京大学:《软件需求工程》课程教学资源(PPT课件讲稿)第十章 软件需求开发与管理工具.ppt
- 《计算机组装与维修》课程教学资源(PPT课件讲稿)第十三章 局域网维护及常见故障处理.ppt
- 南京大学:《编译原理》课程教学资源(PPT课件讲稿)第四章 语法分析(戴新宇).pptx
- 北京大学:《高级编译技术 Advanced Compiler Techniques》课程教学资源(PPT课件讲稿)Introduction to Optimizations.ppt
- 香港大学:Data Analysis - Factors Potentially Affecting Development.pptx
- 西安电子科技大学:《操作系统 Operating Systems》课程教学资源(PPT课件讲稿)Chapter 06 文件系统 File Systems(主讲:高海昌).ppt
- 南京大学:《自然语言处理 Natural Language Processing(NLP)》课程教学资源(PPT课件讲稿)自然语言处理概述、基于规则(知识工程)的传统自然语言处理方法(理性方法).ppt