广东工业大学:《机器学习》课程教学资源(课件讲义)第22讲 生成式网络模型(Stable Diffusion)

Stable Diffusion
Stable Diffusion

A cat in Text-to-image Framework the snow Generator A cat in Text the snow Encoder Generation Model “中間產物” Decoder 圖片的壓縮版本 3
Framework Text-to-image Generator A cat in the snow A cat in the snow Text Encoder Generation Model Decoder 1 3 2 “中間產物” 圖片的壓縮版本

Stable Diffusion https://arxiv.org/abs/2112.10752 Latent Space 2 Conditioning Diffusion Process Semantid Map 2 Denoising U-Net EA Text x(T-1) Repres entations Images Pixel Space D可 品 ☑ T denoising step crossattention switch skip connection concat
Stable Diffusion https://arxiv.org/abs/2112.10752 1 2 3

DALL-E series https://arxiv.org/abs/2204.06125 https://arxiv.org/abs/2102.12092 CLIP objective img encoder “a corgi playing a flame text 3 a80 throwing encoder trumpet" Autoregressive Diffusion prior decoder :
DALL-E series https://arxiv.org/abs/2204.06125 1 2 3 https://arxiv.org/abs/2102.12092 Autoregressive Diffusion

Text "A Golden Retriever dog wearing a blue checkered beret and red dotted turtleneck." Imagen Frozen Text Encoder https://imagen.research.google/ https://arxiv.org/abs/2205.11487 Text Embedding Text-to-Image Diffusion Model 2 64×64 Image f2 Super-Resolution Diffusion Model 256×2561ma 3 Super-Resolution Diffusion Model 1024×10241mag9
Imagen https://imagen.research.google/ https://arxiv.org/abs/2205.11487 1 2 3

A cat in Text-to-image Framework the snow Generator A cat in Text the snow Encoder Generation Model Decoder 3
Framework Text-to-image Generator A cat in the snow A cat in the snow Text Encoder Generation Model Decoder 1 3 2

T5-Small 300M 25 T-Large 25 500M T5-XL 1B T5-XXL 2B XOI-CIH 20 XOI-CI 20 15 15 10 10 0.22 0.24 0.26 0.28 0.24 0.250.26 0.270.280.29 CLIP Score CLIP Score (a)Impact of encoder size. (b)Impact of U-Net size. https://arxiv.org/abs/2205.11487
https://arxiv.org/abs/2205.11487

Frechet Inception Distance (FID) https://arxiv.org/abs/1706.08500 red points:real images CNN softmax blue points:generated images FID Frechet distance ?? between the two Gaussians Smaller is better A lot of samples is needed
Fréchet Inception Distance (FID) red points: real images FID = Fréchet distance between the two Gaussians CNN softmax blue points: generated images ??? Smaller is better A lot of samples is needed. https://arxiv.org/abs/1706.08500

Contrastive Language-Image Pre-Training (CLIP) https://arxiv.org/abs/2103.00020 400 million image-text pairs close far Text Image Text Image Encoder Encoder Encoder Encoder A cat in A dog is the snow running
Contrastive Language-Image Pre-Training (CLIP) https://arxiv.org/abs/2103.00020 Text Encoder Image Encoder A cat in the snow Text Encoder Image Encoder A dog is running. 400 million image-text pairs close far

A cat in Text-to-image Framework the snow Generator A cat in Text the snow Encoder Generation Model Decoder can be trained Decoder without labelled data
Framework Text-to-image Generator A cat in the snow A cat in the snow Text Encoder Generation Model Decoder 1 2 3 Decoder can be trained without labelled data
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第22讲 生成式网络模型(Diffusion Model).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第21讲 生成式网络模型(VAE Generation).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第21讲 生成式网络模型(自编码器 Deep Auto-encoder).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第20讲 预训练模型 Pre-training of Deep Bidirectional Transformers for Language Understanding(授课:周郭许).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第19讲 ViT及注意力机制改进(各式各样的Attention).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第19讲 ViT及注意力机制改进(Vision Transformers ,ViTs).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第18讲 变换器模型 Transformer.pdf
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第18讲 变换器模型 Transformer.pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第17讲 注意力机制(自注意力).pdf
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第17讲 注意力机制(概述).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(编码器解码器,Seq2seq模型,束搜索).pptx
- 广东工业大学:《机器学习》课程教学资源(PPT讲稿)第16讲 现代循环神经网络(高级循环神经网络).pptx
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(Neighbor Embedding,LLE T-SNE).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第15讲 无监督学习——降维深度学习可视化(PCA Kmeans).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第14讲 循环神经网络(RNN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(目标检测,计算机视觉训练技巧).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第13讲 卷积神经网络计算机视觉应用(Inception, 批量归一化和残差网络ResNet).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(LeNet, AlexNet, VGG和NiN).pdf
- 广东工业大学:《机器学习》课程教学资源(课件讲义)第12讲 卷积神经网络(卷积和池化层).pdf
- 北京信息科技大学:计算机学院各专业课程教学大纲汇编.pdf
- 北京信息科技大学:计算中心及图书馆课程教学大纲汇编.pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅰ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅱ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学分析Ⅲ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《高等代数Ⅰ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《高等代数Ⅱ》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《解析几何》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《复变函数论》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《常微分方程》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《实变函数与泛函分析》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《概率论》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数理统计》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《初等数论》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数据结构》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数据结构实验》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《数学物理方程》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《离散数学》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《随机过程》课程教学大纲(2015).pdf
- 新乡学院:数学与统计学院信息与计算科学专业《运筹学》课程教学大纲(2015).pdf