图像、文字、语音与人工智能(PPT课件讲稿)语音识别的原理

语音识别的原理 中国科学院附属实验学校 崔东伟
语音识别的原理 中国科学院附属实验学校 崔东伟

引言 ·同学们好,人工智能技术中的语音识别技术在生 活中的应用非常广泛,如果电灯、电视机、门窗、 水龙头都能听我们的话,让它开它就开,让它关 它就关,是不是很方便呢?今天我们就一起来学 习语音识别的原理,探索语音识别的奥秘
引言 •同学们好,人工智能技术中的语音识别技术在生 活中的应用非常广泛,如果电灯、电视机、门窗、 水龙头都能听我们的话,让它开它就开,让它关 它就关,是不是很方便呢?今天我们就一起来学 习语音识别的原理,探索语音识别的奥秘

语音识别 ·思考:语音识别是将人类语音中的词汇内容转换为计算机可 读的输入的技术。当声音识别后,记录下来的是音频,就是 一系列高高低低的频率。那么这一系列频率都和什么有关? 声音的特性图 说明声音的特征 识别中会有哪些影响 声音的响度和整体声音的大 声音的大小 小有关 和声波整体的幅度有关 有人说话音高,有人说话音 低,和声音的频率有关,乐 声音的频率 器不同的音调也体现在不同 的频率上
语音识别 • 思考:语音识别是将人类语音中的词汇内容转换为计算机可 读的输入的技术。当声音识别后,记录下来的是音频,就是 一系列高高低低的频率。那么这一系列频率都和什么有关?

h 语音识别的基本过程 特征向量 语音 特征提取 解码器 词语 声学模型 发音字典 语言模型
语音识别的基本过程

8 人类识别语音的过程 听到命令 耳朵 1听懂命令 +大脑 1 做出反应→」嘴、手等
人类识别语音的过程

语音识别的原理 1.分帧 ·一整段声波电脑是无法直接 把整段声波分成帧为单位的声波 处理的,需要分成一小段一 小段的进行处理,每一小段 为一个帧,相当于把整理流 动的声音切成一片一片的样 子。如果分帧过细会需要很 大的计算量,分帧过粗的话 懒一态流中最小的单,通常每懒时长为25毫粉。5秒的声 波可提取出200慎的声波, 则会损失声音细节
语音识别的原理 • 1. 分帧 • 一整段声波电脑是无法直接 处理的,需要分成一小段一 小段的进行处理,每一小段 为一个帧,相当于把整理流 动的声音切成一片一片的样 子。如果分帧过细会需要很 大的计算量,分帧过粗的话 则会损失声音细节

语音识别的原理 ·2.提取特征值 ·把每一帧识别为一个状态,其实状态就是由若干特征向量 组合而成的,这些特征值经过组合能够表现出这一段音频 的有效信息,就可以组成一个音素。 一帧声波 提取 特征向量一每一帧声波可提取出多组特 征向量
语音识别的原理 • 2. 提取特征值 • 把每一帧识别为一个状态,其实状态就是由若干特征向量 组合而成的,这些特征值经过组合能够表现出这一段音频 的有效信息,就可以组成一个音素

语音识别的原理 ·3.声学模型 ·把若干帧中的特征值组合成音素的过程,就用到了声音的 声学特性,不同语言的声学特性是不同的。汉语的音素就 包含了声母和韵母。 导入 声学模型 生成 0 特征向量
语音识别的原理 • 3. 声学模型 • 把若干帧中的特征值组合成音素的过程, 就用到了声音的 声学特性, 不同语言的声学特性是不同的。汉语的音素就 包含了声母和韵母

语音识别的原理 ·4.发音字典 •声学模型生成的音素通过发音字典生成最大概率的字。 可能的字为:早、我、草、少… 导入 少 000 可能的字为:上、桑、苍、赏… 生成 找 可能的宇为:好、洁、做、娇… 赏 苍 音素 可能的宇为:啊、哈、扎、洒… 发音字典 苍
语音识别的原理 • 4. 发音字典 • 声学模型生成的音素通过发音字典生成最大概率的字

语音识别的原理 ·5.语言模型 ·音素组合成语言的形式,就要用到语言模型,要考虑到不 同语言的特点,要和发音字典进行比对。根据语法规则, 生成词语或句子。 早桑娇哈 桑 找上徵洒 排序匹配 草苍浩啊 早上好啊 赏 苍 早上好啊 计算机可 读的文本 草 好 语言模型
语音识别的原理 • 5. 语言模型 • 音素组合成语言的形式,就要用到语言模型,要考虑到不 同语言的特点,要和发音字典进行比对。根据语法规则, 生成词语或句子
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《单片机原理及应用》课程教学资源(PPT课件)第2章 单片机应用系统的开发环境.ppt
- 《微机原理与接口技术》课程教学资源(PPT课件)第3章 8086指令系统.ppt
- 《单片机原理及应用》课程教学资源(PPT课件)第1章 单片机基础知识.ppt
- 南阳师范大学:《数据结构》课程电子教案(PPT课件)第4章 串.ppt
- 南阳师范大学:《数据结构》课程电子教案(PPT课件)第3章 栈和队列.ppt
- 南阳师范大学:《数据结构》课程电子教案(PPT课件)第2章 线性表.ppt
- 南阳师范大学:《数据结构》课程电子教案(PPT课件)第1章 绪论(主讲:程艺苑).ppt
- 南阳师范学院:《计算机网络》课程教学资源(教案讲义)计算机网络教学计划(主讲:蒋华龙,教材:谢希仁第七版).doc
- 南阳师范学院:《计算机网络》课程教学资源(PPT课件,谢希仁第6版)第4章 网络层.ppt
- 南阳师范学院:《计算机网络》课程教学资源(PPT课件,谢希仁第6版)第3章 数据链路层.ppt
- 南阳师范学院:《计算机网络》课程教学资源(PPT课件,谢希仁第6版)第2章 物理层.ppt
- 南阳师范学院:《计算机网络》课程教学资源(PPT课件,谢希仁第6版)第1章 概述.ppt
- 《matlab程序设计与应用》课程电子教案(PPT课件)第9章 MATLAB Notebook的使用.ppt
- 《matlab程序设计与应用》课程电子教案(PPT课件)第8章 MATLAB图形用户界面设计.ppt
- 《matlab程序设计与应用》课程电子教案(PPT课件)第7章 MATLAB符号计算.ppt
- 《matlab程序设计与应用》课程电子教案(PPT课件)第6章 MATLAB数值计算.ppt
- 《matlab程序设计与应用》课程电子教案(PPT课件)第5章 MATLAB绘图.ppt
- 《matlab程序设计与应用》课程电子教案(PPT课件)第4章 MATLAB程序设计.ppt
- 《matlab程序设计与应用》课程电子教案(PPT课件)第3章 MATLAB矩阵分析与处理.ppt
- 《matlab程序设计与应用》课程电子教案(PPT课件)第2章 MATLAB数据及其运算.ppt
- 图像、文字、语音与人工智能(PPT课件讲稿)人工智能——数据标注.pptx
- 图像、文字、语音与人工智能(PPT课件讲稿)K12人工智能课程案例设计思考.pptx
- 图像、文字、语音与人工智能(课件讲稿)人工智能教育课程设计.pdf
- 《Linux操作系统》课程教学资源(参考资料)Linux常用命令.pdf
- 《Linux操作系统》课程教学资源(参考资料)VIM命令小结.pdf
- 《Linux操作系统》课程教学资源(参考资料)Vi Quick Reference.pdf
- 《Linux操作系统》课程教学资源(参考资料)Linux搜索命令.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第一讲 Linux介绍(主讲:潘建瑜).pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第二讲 Linux安装(Fedora 9的安装).pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第三讲 Linux基础.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第四讲 Linux文件系统.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第五讲 Linux Shell介绍.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第六讲 Linux进程控制.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第七讲 正则表达式.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第八讲 文本编辑器vim使用指南.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第九讲 文本过滤.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第十讲 Shell的输入与输出.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第十一讲 Shell脚本编程——Shell变量.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)第十二讲 Shell脚本编程.pdf
- 华东师范大学:《Linux操作系统》课程教学资源(课件讲稿)Linux复习.pdf