广东工业大学:《机器学习》课程教学资源(课件讲义)第17讲 注意力机制(自注意力)

Self-attention Hung-yi Lee 李宏毅
Hung -yi Lee 李宏毅 1

Sophisticated Input 。Input is a vector Model →Scalar or Class Input is a set of vectors 000- Model →Scalars or Classes (may change length)
Sophisticated Input • Input is a vector • Input is a set of vectors Model Scalar or Class Model Scalars or Classes (may change length) 2

this is a cat Vector Set as Input 1000 One-hot Encoding Word Embedding apple=[10000…] bag=[01000.] dog rabbit orun ●● cat=[00100…] ojump cat dog=[00010…] otree o flower elephant =[0000 1......] To learn more:https://youtu.be/X7PH3NuYWOQ(in Mandarin)
Vector Set as Input this is a cat dog cat rabbit jump run flower tree apple = [ 1 0 0 0 0 …… ] bag = [ 0 1 0 0 0 …… ] cat = [ 0 0 1 0 0 …… ] dog = [ 0 0 0 1 0 …… ] elephant = [ 0 0 0 0 1 …… ] One-hot Encoding Word Embedding To learn more: https://youtu.be/X7PH3NuYW0Q (in Mandarin) 3

Vector Set as Input 10ms 1s→100 frames 25ms 400 sample points(16KHz) frame 39-dim MFCC 80-dim filter bank output
Vector Set as Input 10ms 25ms 400 sample points (16KHz) 39-dim MFCC 80-dim filter bank output frame 1s → 100 frames 4

https://medium.com/analytics-vidhya/social- network-analytics-f082f4e21b16 Vector Set as Input Graph is also a set of vectors(consider each node as a vector) Each profile is a vector 5
Vector Set as Input • Graph is also a set of vectors (consider each node as a vector) https://medium.com/analytics-vidhya/socialnetwork-analytics-f082f4e21b16 Each profile is a vector 5

http://www.twword.com/wiki/%E5%8 8%86%E5%AD%90 Vector Set as Input Graph is also a set of vectors (consider each node as a vector) H=[10000.] C=[01000..] 0=[00100…] One-hot vector
Vector Set as Input • Graph is also a set of vectors (consider each node as a vector) http://www.twword.com/wiki/%E5%8 8%86%E5%AD%90 One-hot vector H = [ 1 0 0 0 0 …… ] C = [ 0 1 0 0 0 …… ] O = [ 0 0 1 0 0 …… ] …… 6

What is the output? Each vector has a label. 000→ Model N N Example Applications not I saw a saw N V DET N a a b b POS tagging HW2 buy buy
Model What is the output? • Each vector has a label. N N I saw a saw N V DET N a a b b HW2 buy buy not Example Applications POS tagging 7

What is the output? Each vector has a label. 00→ Model N N The whole sequence has a label. 0000→ Model Example Applications this is good Sentiment analysis HW4 positive speaker hydrophilicitya
Model What is the output? • Each vector has a label. • The whole sequence has a label. N N Model this is good positive speaker HW4 hydrophilicity Example Applications 8 Sentiment analysis

What is the output? Each vector has a label. focus of this lecture Model N N The whole sequence has a label. Model Model decides the number of labels itself seq2seq 0L→ Model N Translation (HW5) N
Model What is the output? • Each vector has a label. N N • Model decides the number of labels itself. N N’ Model Translation (HW5) • The whole sequence has a label. Model seq2seq focus of this lecture 9

Sequence Labeling Is it possible to consider the context? FC can consider the neighbor FC Fully- connected How to consider the whole sequence? a window covers the whole sequence? FC FC FC FC window saw a saw 10
Sequence Labeling FC FC FC FC Is it possible to consider the context? I saw a saw FC Fullyconnected FC can consider the neighbor How to consider the whole sequence? window a window covers the whole sequence? 10
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第17讲 注意力机制(概述).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(编码器解码器,Seq2seq模型,束搜索).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(高级循环神经网络).pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(Neighbor Embedding,LLE T-SNE).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(PCA Kmeans).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第14讲 循环神经网络(RNN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(目标检测,计算机视觉训练技巧).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(Inception, 批量归一化和残差网络ResNet).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(LeNet, AlexNet, VGG和NiN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(卷积和池化层).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第11讲 感知机模型与多层感知机(前馈神经网络,DNN BP).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(激活函数 dropout).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(梯度消失和梯度爆炸BN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(自适应学习率 AdaGrad RMSProp).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第10讲 神经网络的优化(batch和动量Momentum NAG).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第9讲 神经网络的优化(梯度下降、学习率adagrad adam、随机梯度下降、特征缩放).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第9讲 神经网络的优化(损失函数).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第8讲 集成学习(决策树的演化).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第7讲 集成学习(决策树).pdf
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第18讲 变换器模型 Transformer.pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第18讲 变换器模型 Transformer.pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第19讲 ViT及注意力机制改进(Vision Transformers ,ViTs).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第19讲 ViT及注意力机制改进(各式各样的Attention).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第20讲 预训练模型 Pre-training of Deep Bidirectional Transformers for Language Understanding(授课:周郭许).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第21讲 生成式网络模型(自编码器 Deep Auto-encoder).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第21讲 生成式网络模型(VAE Generation).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第22讲 生成式网络模型(Diffusion Model).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第22讲 生成式网络模型(Stable Diffusion).pdf
- 北京信息科技大学:计算机学院各专业课程教学大纲汇编.pdf
- 北京信息科技大学:计算中心及图书馆课程教学大纲汇编.pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅰ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅱ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅲ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《高等代数Ⅰ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《高等代数Ⅱ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《解析几何》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《复变函数论》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《常微分方程》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《实变函数与泛函分析》课程教学大纲(2015).pdf