中国高校课件下载中心 》 教学资源 》 大学文库

《自然语言处理》课程教学资源(PPT课件讲稿)语言模型

文档信息
资源类别:文库
文档格式:PPT
文档页数:50
文件大小:182KB
团购合买:点击进入团购
内容简介
• 概述 • 参数估计 • 基本平滑算法 • 其它平滑算法
刷新页面文档预览

语言模型

语言模型

大纲 概述 参数估计 基本平滑算法 其它平滑算法

大纲 • 概述 • 参数估计 • 基本平滑算法 • 其它平滑算法

概述

概述

噪声通道模型 原型 0,1,1,10,1,0, 通道 0.1.10.0.1.1.0 输入 (增加噪声) 输出 模型:出错的概率 举例:p(01)=0.3,p(1|1)=0.7,p(10)=0.4, p(O0=0.6 任务是: 已知带有噪声的输出 想知道输入是什么(也称为: Decoding)

噪声通道模型 • 原型 • 模型:出错的概率 • 举例:p(0|1)=0.3, p(1|1)=0.7, p(1|0)=0.4, p(0|0)=0.6 • 任务是: – 已知带有噪声的输出 – 想知道输入是什么(也称为:Decoding) 通道 (增加噪声) 0,1,1,1,0,1,0,1 0,1,1,0,0,1,1,0 输入 输出

噪声通道的应用 ·OCR 文本→打印(引入噪声,扫描→图像 手写识别 -文本→神经肌肉(引入噪声扫描→图像 语音识别 文本→朗读(引入噪声)→声学波形 机器翻译 目标语言→翻译(引入噪声)→源语言 其它:词性标注 词性序列→选择词形→文本

噪声通道的应用 • OCR – 文本→打印(引入噪声), 扫描→图像 • 手写识别 – 文本→神经肌肉(引入噪声), 扫描→图像 • 语音识别 – 文本→朗读(引入噪声) →声学波形 • 机器翻译 – 目标语言→翻译(引入噪声) →源语言 • 其它:词性标注 – 词性序列→选择词形→文本

:噪声通道:黄金规则 适用于OCR,手写识别,语音识别,机 器翻译,词性标注等各个问题 贝叶斯公式:P(AB)PBA)P(AP(B) Abest argmaxA P(BAP(A) P(BA)是声学图像翻译等模型 在不同领域用不同的术语来描述 P(A)是语言模型

噪声通道:黄金规则 • 适用于OCR,手写识别,语音识别,机 器翻译,词性标注等各个问题 • 贝叶斯公式:P(A|B)=P(B|A)P(A)/P(B) • Abest=argmaxA P(B|A)P(A) • P(B|A)是声学/图像/翻译等模型 – 在不同领域用不同的术语来描述 • P(A)是语言模型

什么是语言模型( Language Model) 模 模型是用来计算一个句子的概率的概率 例如:P(w1,w2,wy ·语言模型的用途 决定哪一个词序列的可能性更大 已知若干个词,预测下一个词 应用 语音识别 机器翻译 上下文敏感的拼写检查

什么是语言模型(Language Model) • 语言模型是用来计算一个句子的概率的概率 模型 – 例如:P(w1 ,w2 ,…,wn ) • 语言模型的用途 – 决定哪一个词序列的可能性更大 – 已知若干个词,预测下一个词 • 应用 – 语音识别 – 机器翻译 – 上下文敏感的拼写检查

应用于语音识别 有的词序列听起来很像,但并不都是正 确的句子 例子1: I went to a party Eye went two a bar tea 例子2: 你现在在干什么?√ 你西安载感什么?

应用于语音识别 • 有的词序列听起来很像,但并不都是正 确的句子 – 例子1: • I went to a party. √ • Eye went two a bar tea. – 例子2: • 你现在在干什么? √ • 你西安载感什么?

应用于机器翻译 给定一个汉语句子 例如:王刚出现在电视上 英文译文: Wang Gang appeared in TV In Wang gang appeared TV. Wang Gang appeared on TV

应用于机器翻译 • 给定一个汉语句子 – 例如:王刚出现在电视上。 – 英文译文: • Wang Gang appeared in TV. • In Wang Gang appeared TV. • Wang Gang appeared on TV. √

应用于拼写检查 举例 汉语 我自己知道 我自已知道 英语 Wang Gang appeared on tv.v Wang Gang appeared of Tv

应用于拼写检查 • 举例 – 汉语 • 我自己知道 √ • 我自已知道 – 英语 • Wang Gang appeared on TV. √ • Wang Gang appeared of TV

刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档