神经机器翻译前沿进展 刘洋 第十二届全国机器翻译研讨会 1 2016年8月,乌鲁木齐

机器翻译 • 目标:利用计算机实现自然语言的自动翻译 2 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon

发展历史 • 趋势:让机器更“自主”地学习如何翻译 3 规则 机器翻译 统计 机器翻译 神经 机器翻译 1980 1990 2013 数据驱动 机器翻译 1990

数据驱动的机器翻译 • 核心问题:如何为翻译过程建立概率模型? 4 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon

统计机器翻译 • 隐变量对数线性模型:在隐式语言结构上设计特征 5 布什 与 沙龙 举行 了 会谈 Bush held a talk with Sharon (Och and Ney, 2002)

基于短语的统计机器翻译 • 短语翻译模型:以隐结构短语为基本翻译单元 6 布什 与 沙龙 举行 了 会谈 布什 与 沙龙 举行 了 会谈 Bush with Sharon held a talk Bush held a talk with Sharon Bush held a talk with Sharon (Koehn et al., 2003)

统计机器翻译的优缺点 • 优点 • 隐结构可解释性高 • 利用局部特征和动态规划处理指数级结构空间 • 缺点 • 线性模型难以处理高维空间中线性不可分的情况 • 需要人类专家设计隐式结构及相应的翻译过程 • 需要人类专家设计特征 • 离散表示带来严重的数据稀疏问题 • 难以处理长距离依赖 7

难点:长距离调序 8 Bush President held a talk with Israeli Prime Minister Sharon at the White House 如何用上述词语拼成合理的译文?

深度学习带来新思路 10 Yann LeCun Yoshua Bengio Geoffrey Hinton (LeCun et al, 2015)
