广东工业大学:《机器学习》课程教学资源(PPT讲稿)第18讲 变换器模型 Transformer

变换器模型 Transformer R写RR
变换器模型 (Transformer)

自注意力机制 要使用n个输入生成n 个输出,我们可以将每个 输入复制为键(key), Outputs 值(value)和查询 Self-attention (quey)中 Keys,values, queries ·不保留顺序信息 ·并行计算 t-1 t+1 D2L.ai
自注意力机制 • 要使用 n 个输入生成 n 个输出,我们可以将每个 输入复制为键(key), 值(value)和查询 (query)中 • 不保留顺序信息 • 并行计算

Transformer模型架构 Dense 它是一个编码器-解码器 传递到每块 Add Norm 架构 Position- State wise FFN ·与seq2seq不同,注意 Add Norm Add Norm 力集中在3个地方 Position- Muti-head x n wise FFN Attention Seq2seg with Attenti 变换器块 Add Norm Add Norm Encoder Decoder Multi-head Multi-head Attention Attention Attention Dense 顺序信息 n x Recurrent layer Recurrent layer Positional Positional Encoding Encoding Embedding Embedding Embedding Embedding Sources Targets Sources Targets D2L.ai
Transformer模型架构 • 它是一个编码器 - 解码器 架构 • 与 seq2seq 不同,注意 力集中在 3 个地方 变换器块 传递到每块 顺序信息

多头注意力机制(Multi--head Attention) Dense Dense Transformer Concat Add Norm Position- State wise FFN Attention Attention Add Norm Add Norm Dense Dense De Dense Dense Dense Position- Muti-head wise FFN Attention Queries Keys Values Add Norm Add Norm W9∈RP,x4,W9∈RPx4,andW0∈RP,xa, Multi-head Multi-head Attention Attention ()=attention(Wq Wk,Wv) Positional Positional Encoding Encoding for i=1,...,h 0=W。 Embedding Embedding Sources Targets D2L.ai
多头注意力机制(Multi-head Attention) Dense Attention Queries Keys Values Dense Dense … Dense Attention Dense Dense Concat Dense Multi-head Attention Add & Norm Positional Encoding Embedding Positionwise FFN Add & Norm Muti-head Attention Add & Norm Positionwise FFN Add & Norm Sources Dense Multi-head Attention Add & Norm Positional Encoding Embedding Targets x n n x State Embedding Sources Decoder n x Embedding Targets Dense Encoder Attention Recurrent layer Recurrent layer x n Seq2seq with Attention Transformer

位置前馈网络 Dense 将输入(批量大小,序列长度,特征集大小) Transformer Add Nomm Position- 重新整形为(批量*序列长度,特征集大小) wise FFN Add &Norm ·用两层MLP ·转换为3-D形态 。 等于应用两(1,1)个卷积层 Embedding D2L.ai
位置前馈网络 • 将输入(批量大小,序列长度,特征集大小) 重新整形为(批量*序列长度,特征集大小) • 用两层 MLP • 转换为 3-D 形态 • 等于应用两(1,1)个卷积层

添加与归一化 Layer norm 层规范(Layer Norm)类似 Transformer 于批量规范(Batch Norm) State Block ·但是平均值和方差是沿最后 一个维度计算的 Add Nom uEi-honc X.mean(axis=-1)而 不是批量归一化 X.mean中的第一个批 Embedding 次维度(axis=0) Sources D2L.ai
添加与归一化 • 层规范(Layer Norm)类似 于批量规范(Batch Norm) • 但是平均值和方差是沿最后 一个维度计算的 • X.mean(axis = -1)而 不是批量归一化 • X.mean 中的第一个批 次维度(axis = 0)

位置编码 ·假设嵌入Ⅹ∈Rxd输出的形状(序列长度 Transformer ,嵌入维度) State ·创建P∈Rxd P,2j=sin(i/100002j/a) P,2j+1=c0s(i/100002ja) ·输出X+P D2L.ai
位置编码 • 假设嵌入 𝑋 ∈ ℝ 𝑙×𝑑 输出的形状(序列长度 ,嵌入维度) • 创建 𝑃 ∈ ℝ 𝑙×𝑑 • 输出 X + P 𝑃𝑖,2𝑗 = sin(𝑖/100002𝑗/𝑑 ) 𝑃𝑖,2𝑗+1 = cos(𝑖/100002𝑗𝑑)

预测 在时刻t预测: ·用之前输入的键和值 Output 。 时刻t输入作为查询 以及键和值,以预测 Self-attention 输出 Keys,values Query 1 D2L.ai
预测 • 在时刻 t 预测: • 用之前输入的键和值 • 时刻 t 输入作为查询, 以及键和值,以预测 输出
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第17讲 注意力机制(自注意力).pdf
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第17讲 注意力机制(概述).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(编码器解码器,Seq2seq模型,束搜索).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(高级循环神经网络).pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(Neighbor Embedding,LLE T-SNE).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(PCA Kmeans).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第14讲 循环神经网络(RNN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(目标检测,计算机视觉训练技巧).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(Inception, 批量归一化和残差网络ResNet).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(LeNet, AlexNet, VGG和NiN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(卷积和池化层).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第11讲 感知机模型与多层感知机(前馈神经网络,DNN BP).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(激活函数 dropout).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(梯度消失和梯度爆炸BN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(自适应学习率 AdaGrad RMSProp).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(batch和动量Momentum NAG).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第9讲 神经网络的优化(梯度下降、学习率adagrad adam、随机梯度下降、特征缩放).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第9讲 神经网络的优化(损失函数).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第8讲 集成学习(决策树的演化).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第18讲 变换器模型 Transformer.pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第19讲 ViT及注意力机制改进(Vision Transformers ,ViTs).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第19讲 ViT及注意力机制改进(各式各样的Attention).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第20讲 预训练模型 Pre-training of Deep Bidirectional Transformers for Language Understanding(授课:周郭许).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第21讲 生成式网络模型(自编码器 Deep Auto-encoder).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第21讲 生成式网络模型(VAE Generation).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第22讲 生成式网络模型(Diffusion Model).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第22讲 生成式网络模型(Stable Diffusion).pdf
- 北京信息科技大学:计算机学院各专业课程教学大纲汇编.pdf
- 北京信息科技大学:计算中心及图书馆课程教学大纲汇编.pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅰ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅱ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅲ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《高等代数Ⅰ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《高等代数Ⅱ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《解析几何》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《复变函数论》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《常微分方程》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《实变函数与泛函分析》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《概率论》课程教学大纲(2015).pdf