哈尔滨工业大学:《语言信息处理》课程教学资源(PPT课件讲稿)机器翻译 II Machine Translation II

机器翻译‖l Machine Translation l 张宇 哈尔滨工业大学计算机科学与技术学院 Zhangyu@irhit.edu.cn
机器翻译II Machine Translation II 张宇 哈尔滨工业大学计算机科学与技术学院 zhangyu@ir.hit.edu.cn

大纲 基于翻译记忆的机器翻译方法 ■基于模板(模式)的机器翻译方法 ■双语语料库对齐技术 句子对齐 词语对齐 ■机器翻译的评价 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 2 大纲 基于翻译记忆的机器翻译方法 基于模板(模式)的机器翻译方法 双语语料库对齐技术 – 句子对齐 – 词语对齐 机器翻译的评价

翻译记忆方法1 ■翻译记忆方法( Translation Memory)是基于实 例方法的特例; ■也可以把基于实例的方法理解为广义的翻译记忆 方法; ■翻译记忆的基本思想: 把已经翻译过的句子保存起来 翻译新句子时,直接到语料库中去查找 如果发现相同的句子,直接输出译文 否则交给人去翻译,但可以提供相似的句子的参考译文 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 3 翻译记忆方法1 翻译记忆方法(Translation Memory)是基于实 例方法的特例; 也可以把基于实例的方法理解为广义的翻译记忆 方法; 翻译记忆的基本思想: – 把已经翻译过的句子保存起来 – 翻译新句子时,直接到语料库中去查找 如果发现相同的句子,直接输出译文 否则交给人去翻译,但可以提供相似的句子的参考译文

翻译记忆方法2 ■翻译记忆方法主要被应用于计算机辅助翻 译(CAT)软件中 ■翻译记忆方法的优缺点 翻译质量有保证 随着使用时间匹配成功率逐步提高 特别适用于重复率高的文本翻译,例如公司的 品说明书的新版本翻译 与语言无关,适用于各种语言对 缺点是匹配成功率不高,特别是刚开始使用时 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 4 翻译记忆方法2 翻译记忆方法主要被应用于计算机辅助翻 译(CAT)软件中 翻译记忆方法的优缺点 – 翻译质量有保证 – 随着使用时间匹配成功率逐步提高 – 特别适用于重复率高的文本翻译,例如公司的 产品说明书的新版本翻译 – 与语言无关,适用于各种语言对 – 缺点是匹配成功率不高,特别是刚开始使用时

翻译记忆方法3 ■计算机辅助翻译(CAT)软件已经形成了比较成熟的产业 TRADOS ■号称占有国际CAT市场的70% Microsoft、 Siemens、SAP等国际大公司和一些著名的国际组织都是 其用户 雅信CAT 适合中国人的习惯 产品已比较成熟 国际组织:L|SA( Localisation Industry Standards Association) ■面向用户:专业翻译人员 ■数据交换:LSA制定了TMX( Translation Memory eXchange)标准。 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ 5
2021年2月1日5时18分 语言信息处理--机器翻译II 5 翻译记忆方法3 计算机辅助翻译(CAT)软件已经形成了比较成熟的产业 – TRADOS 号称占有国际CAT市场的70% Microsoft、Siemens、SAP等国际大公司和一些著名的国际组织都是 其用户 – 雅信CAT 适合中国人的习惯 产品已比较成熟 – 国际组织: LISA(Localisation Industry Standards Association) 面向用户:专业翻译人员 数据交换:LISA制定了TMX(Translation Memory eXchange)标准

翻译记忆方法4 完整的计算机辅助翻译软件除了包括翻译 记忆功能以外,还应该包括以下功能 多种文件格式的分解与合成 术语库管理功能 语料库的句子对齐(历史资料的重复利用) 项目管理: ■翻译任务的分解与合并 翻译工作量的估计 数据共享和数据交换 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 6 翻译记忆方法4 完整的计算机辅助翻译软件除了包括翻译 记忆功能以外,还应该包括以下功能 – 多种文件格式的分解与合成 – 术语库管理功能 – 语料库的句子对齐(历史资料的重复利用) – 项目管理: 翻译任务的分解与合并 翻译工作量的估计 – 数据共享和数据交换

翻译记忆方法5 字数/天 采用CAT 20000 辅助翻译效率 传统翻译效率 1000 第1个月第2个月第3个月时间 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 7 翻译记忆方法5

基于模板(模式)的机器翻译方法1 基于模板( Template或者模式( Pattern)的机器翻译 方法通常也被看做基于实例的机器翻译方法的一种延伸 所谓“翻译模板”或者“翻译模式”可以认为是一种颗粒 度介于“翻译规则”和“翻译实例”之间的翻译知识表示 形式 翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错 翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小 翻译模板(模式):介于二者之间,是一种比较合适的知识表示 形式 一般而言,单语模板(或模式)是一个常量和变量组成的 字符串,翻译模板(或模式)是两个对应的单语模板(或 模式),两个模板之间的变量存在意义对应关系 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 8 基于模板(模式)的机器翻译方法1 基于模板(Template)或者模式(Pattern)的机器翻译 方法通常也被看做基于实例的机器翻译方法的一种延伸 所谓“翻译模板”或者“翻译模式”可以认为是一种颗粒 度介于“翻译规则”和“翻译实例”之间的翻译知识表示 形式 – 翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错 – 翻译实例:颗粒度小,不易出错,但过于具体,匹配可能性小 – 翻译模板(模式):介于二者之间,是一种比较合适的知识表示 形式 一般而言,单语模板(或模式)是一个常量和变量组成的 字符串,翻译模板(或模式)是两个对应的单语模板(或 模式),两个模板之间的变量存在意义对应关系

基于模板(模式)的机器翻译方法2 模板举例: 这个X比Y更Z The x is more z than y ■模板方法的主要问题 对模板中变量的约東 模板抽取 模板的冲突消解 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ
2021年2月1日5时18分 语言信息处理--机器翻译II 9 基于模板(模式)的机器翻译方法2 模板举例: – 这个X 比Y 更Z。 – The X is more Z than Y. 模板方法的主要问题 – 对模板中变量的约束 – 模板抽取 – 模板的冲突消解

Pattern-Based cfG for mt 1 Koichi takeda. Pattern-Based context- Free Grammars for machine translation Proc. of 34th ACL, pp 144-151, June 1996 ■给出了翻译模式的一种形式化定义,并给 出了相应的翻译算法以及算法复杂性的理 论证明 2021年2月1日5时18分 语言信息处理-机器翻译Ⅱ 10
2021年2月1日5时18分 语言信息处理--机器翻译II 10 Pattern-Based CFG for MT 1 Koichi Takeda, Pattern-Based ContextFree Grammars for Machine Translation, Proc. of 34th ACL, pp. 144-- 151, June 1996 给出了翻译模式的一种形式化定义,并给 出了相应的翻译算法以及算法复杂性的理 论证明
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- Gas Systems Modeling andSimulation with MSC.EASY5:GD Advanced Class Notes(EAS105 Course Notes).ppt
- 《计算机网络 Computer Networking》课程教学资源(PPT课件讲稿,英文版)Chapter 6 Wireless and Mobile Networks.ppt
- 《图像处理与计算机视觉 Image Processing and Computer Vision》课程教学资源(PPT课件讲稿)Chapter 08 Stereo vision.pptx
- 《计算机文化基础》课程教学大纲 Computer Culture Foundation.pdf
- 《高级语言程序设计》课程教学资源(试卷习题)试题五(无答案).doc
- 大连工业大学:《计算机程序设计(C语言版)》课程教学资源(PPT课件讲稿,共十三章).pps
- 《Visual Basic 6.0程序设计》课程教学资源(PPT课件)第四章 常用控件与窗体.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,2017)第11章 图计算.ppt
- 《计算机导论》课程教学资源(PPT课件讲稿)第9章 计算机学科方法论.ppt
- VB.Net程序设计基础(PPT课件讲稿).ppt
- 《计算机网络》课程教学资源(PPT课件)第4讲 以太网组网及故障排除.ppt
- 《编译原理》课程教学资源(PPT课件讲稿)第二章 词法分析.ppt
- 中国科学技术大学:《计算机视觉》课程教学资源(PPT课件讲稿)第二章 视觉的基本知识.ppt
- 《机器学习》教学资源(PPT讲稿)支持向量机 support vector machines.ppt
- 哈尔滨工业大学:逻辑斯蒂回归与最大熵(PPT课件讲稿).pptx
- 软件开发环境与工具(PPT讲稿)Software development environment and tool.ppt
- 语义网与本体(PPT讲稿)Semantic Web & Ontology(元数据 Metadata).ppt
- 《数据结构》课程教学资源(PPT课件讲稿)第五章 数组.ppt
- 香港科技大学:片上网络(PPT讲稿)network-on-chip(NoC)NoC Building Blocks.pptx
- 南京大学:《自然语言处理 Natural Language Processing(NLP)》课程教学资源(PPT课件讲稿)自然语言处理概述、基于规则(知识工程)的传统自然语言处理方法(理性方法).ppt
- 四川大学:《操作系统 Operating System》课程教学资源(PPT课件讲稿)Chapter 3 Process Description and Control 3.1 What is a Process 3.2 Process States 3.3 Process Description.ppt
- 《计算机应用基础》课程教学资源(PPT课件讲稿)第四章 电子表格软件(Excel 2003).ppt
- 《计算机文化基础》课程教学资源(PPT课件讲稿)第七章 计算机网络基础.ppt
- 大数据集成(PPT讲稿)Big Data Integration.pptx
- 中国科学技术大学:《嵌入式操作系统 Embedded Operating Systems》课程教学资源(PPT课件讲稿)第四讲 CPU调度(part II).ppt
- 西安电子科技大学:《计算机通信网》课程教学资源(PPT课件讲稿)第1章 概述(宋锐).ppt
- 西安交通大学:《网络与信息安全》课程PPT教学课件(网络入侵与防范)第六章 网络入侵与防范——拒绝服务攻击与防御技术.ppt
- 《高级人工智能 Advanced Artificial Intelligence》教学资源(PPT讲稿)Lecture 7 Recurrent Neural Network.pptx
- 南京大学:《编译原理》课程教学资源(PPT课件讲稿)第七章 运行时刻环境.ppt
- 中国科学技术大学:《计算机体系结构》课程教学资源(PPT课件讲稿)第6章 Data-Level Parallelism in Vector, SIMD, and GPU Architectures.ppt
- 河南中医药大学(河南中医学院):《计算机网络》课程教学资源(PPT课件讲稿)第六章 应用层.pptx
- 媒体服务(PPT课件讲稿)Media Services.ppt
- 东北大学:《可信计算基础》课程教学资源(PPT课件讲稿)第6章 TPM核心功能(主讲:周福才).pptx
- 山东大学:《人机交互技术》课程教学资源(PPT课件讲稿)第3章 交互设备 3.5 显示设备 3.6 语音交互设备 3.7虚拟现实系统中的交互设备.ppt
- 《网络搜索和挖掘关键技术 Web Search and Mining》课程教学资源(PPT讲稿)Lecture 11 Probabilistic Information Retrieval.ppt
- 广西医科大学:《计算机网络 Computer Networking》课程教学资源(PPT课件讲稿)Chapter 01 Introduction overview.pptx
- 东南大学:《C++语言程序设计》课程教学资源(PPT课件讲稿)Chapter 10 Classes A Deeper Look(Part 2).ppt
- 《网上开店实务》课程教学资源(PPT讲稿)学习情境1 网上开店创业策划.ppt
- 安徽理工大学:《Linux开发基础 Development Foundation on Linux OS》课程资源(PPT课件讲稿)Section 4 Perl programming(赵宝).ppt
- 香港理工大学:Artificial Neural Networks for Data Mining.ppt