广东工业大学:《机器学习》课程教学资源(PPT讲稿)第17讲 注意力机制(概述)

ya n=Ta.x 注意力机制 Sino+smnB 2an erf x e' =mcA
注意力机制

动机 ·每个生成的tokeni可能与不同的源token:相关 bonjour 、le monde hidden state 中中中 hello world bonjour monde D2L.ai
动机 • 每个生成的token可能与不同的源token相关

注意力层 ·注意力层明确选择相关信息 它的存储器(memory) Memory 由“键值对”组成 键和查询越相似,则输 Values Output 出的值越相近 Attention Keys Query D2L.ai
注意力层 • 注意力层明确选择相关信息 • 它的存储器(memory) 由“键值对”组成 • 键和查询越相似,则输 出的值越相近

注意力层 假设“一条询问”为q∈Rag,存储器为(k1,V1),…,(kVn); 。 k;eRak,V:∈Ra, ·计算n分数a1,,an;ai=(q,ki) 改变a可以 ·使用softmax获得注意力 获得不同 b1,…,bn=softmax(a1,…,an) 的注意力 ·输出是值的加权和 层 m 0=∑b1 i=1 D2L.ai
注意力层 • 假设“一条询问”为 𝐪 ∈ ℝ 𝑑𝑞 ,存储器为 (𝐤1, 𝐯1), … , (𝐤𝑛, 𝐯𝑛) ; 𝐤𝑖∈ ℝ 𝑑𝑘 ,𝐯𝑖 ∈ ℝ 𝑑𝑣 • 计算 n 分数 𝑎1, …, 𝑎𝑛;𝑎𝑖 = 𝛼(𝐪, 𝐤𝑖) • 使用 softmax 获得注意力 𝑏1, … , 𝑏𝑛 = softmax(𝑎1, … , 𝑎𝑛) • 输出是值的加权和 𝐨 = ∑ 𝑖=1 𝑛 𝑏𝑖𝐯𝑖 改变α可以 获得不同 的注意力 层

点乘注意力 ·假设询问的长度与值相同q,k;∈Rd a(q,k)=(q,k)/Vd ·向量化版本 ·m个询问Q∈Rmxd和n个键K∈Rnxd a(Q,K)QKT/Vd D2L.ai
点乘注意力 • 假设询问的长度与值相同 𝐪, 𝐤𝑖 ∈ ℝ 𝑑 𝛼(𝐪, 𝐤) = ⟨𝐪, 𝐤⟩/ 𝑑 • 向量化版本 • m 个询问 𝐐 ∈ ℝ 𝑚×𝑑 和 n 个键 𝐊 ∈ ℝ 𝑛×𝑑 𝛼(𝐐,𝐊) = 𝐐𝐊 𝑇 / 𝑑

多层感知注意力 ·可学习的参数Wk∈Rhxk,W。∈Rhxda,v∈Rh a(k,q)vTtanh(Wik Waq) ·相当于连接“键”(key)和“询问”(quey),然后输入隐含 大小为h和输出大小1的单个隐含层感知 D2L.ai
多层感知注意力 • 可学习的参数 𝐖𝑘 ∈ ℝ ℎ×𝑑𝑘 ,𝐖𝑞 ∈ ℝ ℎ×𝑑𝑞 , 𝐯 ∈ ℝ ℎ • 相当于连接“键”(key)和 “询问”(query),然后输入隐含 大小为 ℎ 和输出大小 1的单个隐含层感知 𝛼(𝐤, 𝐪) = 𝐯 𝑇 tanh(𝐖𝑘𝐤 + 𝐖𝑞𝐪)

Seq2seq与注意力机制 D2L.ai
Seq2seq 与注意力机制

模型架构 添动加额外的注意层以编码器的输出作为存储器 ·注意力的输出用作解码器的输入 Attention Key-values Query Output Input Encoder Decoder D2L.ai
模型架构 • 添加额外的注意层以编码器的输出作为存储器 • 注意力的输出用作解码器的输入

编码器一解码器上的注意力机制 Encoder Decoder 。1 使用编码器中最后一个循环神经 Attention 网络层的输出 Dense 个 ·然后,注意力输出与嵌入输出拼 Recurrent layer Recurrent layer 接,以输入解码器中的第一个循 环神经网络层 Recurrent layer Recurrent layer ↑ Embedding Embedding 入 Sources Targets D2L.ai
编码器—解码器上的注意力机制 • 使用编码器中最后一个循环神经 网络层的输出 • 然后,注意力输出与嵌入输出拼 接,以输入解码器中的第一个循 环神经网络层
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(编码器解码器,Seq2seq模型,束搜索).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(高级循环神经网络).pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(Neighbor Embedding,LLE T-SNE).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(PCA Kmeans).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第14讲 循环神经网络(RNN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(目标检测,计算机视觉训练技巧).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(Inception, 批量归一化和残差网络ResNet).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(LeNet, AlexNet, VGG和NiN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(卷积和池化层).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第11讲 感知机模型与多层感知机(前馈神经网络,DNN BP).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(激活函数 dropout).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(梯度消失和梯度爆炸BN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(自适应学习率 AdaGrad RMSProp).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(batch和动量Momentum NAG).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第9讲 神经网络的优化(梯度下降、学习率adagrad adam、随机梯度下降、特征缩放).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第9讲 神经网络的优化(损失函数).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第8讲 集成学习(决策树的演化).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第7讲 集成学习(决策树).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第6讲 线性回归模型及其求解方法 Linear Regression Model and Its Solution.pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第17讲 注意力机制(自注意力).pdf
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第18讲 变换器模型 Transformer.pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第18讲 变换器模型 Transformer.pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第19讲 ViT及注意力机制改进(Vision Transformers ,ViTs).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第19讲 ViT及注意力机制改进(各式各样的Attention).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第20讲 预训练模型 Pre-training of Deep Bidirectional Transformers for Language Understanding(授课:周郭许).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第21讲 生成式网络模型(自编码器 Deep Auto-encoder).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第21讲 生成式网络模型(VAE Generation).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第22讲 生成式网络模型(Diffusion Model).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第22讲 生成式网络模型(Stable Diffusion).pdf
- 北京信息科技大学:计算机学院各专业课程教学大纲汇编.pdf
- 北京信息科技大学:计算中心及图书馆课程教学大纲汇编.pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅰ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅱ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅲ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《高等代数Ⅰ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《高等代数Ⅱ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《解析几何》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《复变函数论》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《常微分方程》课程教学大纲(2015).pdf