中国科学技术大学:《计算机体系结构》课程教学资源(PPT课件讲稿)第6章 Data-Level Parallelism in Vector, SIMD, and GPU Architectures
data:image/s3,"s3://crabby-images/27f5f/27f5ffa88d0696e2fbd6a2b5b97c2f0e99e6e676" alt=""
第6章Data- Level parallelism in vector,SsMD, and gPU architectures ·SMD结构 向量体系结构 多媒体SMD指令集扩展 图形处理单元 ·向量体系结构 GPU 2021/2/1 计算机体系结构
第6章 Data-Level Parallelism in Vector, SIMD, and GPU Architectures • SIMD结构 –向量体系结构 –多媒体SIMD指令集扩展 –图形处理单元 •向量体系结构 •GPU 2021/2/1 计算机体系结构 2
data:image/s3,"s3://crabby-images/7cfbd/7cfbd554e3c479ba0a1abbc3bb1f64a815a1437d" alt=""
传统指令级并行技术的问题 挖掘IP的传统方法的主要缺陷: ·提高流水线的钟频率提高时钟频率,有时导 致CP随着增加( branches, other hazards ·指令预取和译有时在每个时钟周期很难预取 和译码多条指令 提高cαche命中室:在有些计算量较大的应用中 (科学计算)需要大量的数据,其局部性较差 有些程序处理的是连续的媒体流( multimedia)其 局部性也较差。 2021/2/1 计算机体系结构
传统指令级并行技术的问题 挖掘ILP的传统方法的主要缺陷: • 提高流水线的时钟频率: 提高时钟频率,有时导 致CPI随着增加 (branches, other hazards) • 指令预取和译码: 有时在每个时钟周期很难预取 和译码多条指令 • 提高Cache命中率 : 在有些计算量较大的应用中 (科学计算)需要大量的数据,其局部性较差, 有些程序处理的是连续的媒体流(multimedia),其 局部性也较差。 2021/2/1 计算机体系结构 3
data:image/s3,"s3://crabby-images/6c1f2/6c1f2b550d47525f91a9ed13c6c84cba750fa243" alt=""
Introduction SMD结构可有效地挖掘数据级并 基于矩阵运算的科学计算 图像和声音处理 S|MD比MMD更节能 针对每组数据操作仅需要取指一次 S|MD对PMD( persona| mobile devices)更具 吸引力 SMD允许程序员继续以串行模式思维 2021/2/1 计算机体系结构
Introduction • SIMD 结构可有效地挖掘数据级并行: • 基于矩阵运算的科学计算 • 图像和声音处理 • SIMD比MIMD更节能 • 针对每组数据操作仅需要取指一次 • SIMD对PMD( personal mobile devices)更具 吸引力 • SIMD 允许程序员继续以串行模式思维 2021/2/1 计算机体系结构 4
data:image/s3,"s3://crabby-images/27340/27340b6984156265d2091fcb79a2d87385246e6b" alt=""
SIMD Parallelism ·向量体系结构 ·多媒体SMD指令集扩展 Graphics Processor Units(GPUs) For x86 processors 每年增加2 cores/chip ·SMD宽度每4年翻一番 ·SMD潜在加速比是MMD的2倍 2021/2/1 计算机体系结构 5
SIMD Parallelism •向量体系结构 •多媒体SIMD指令集 扩展 •Graphics Processor Units (GPUs) • For x86 processors: • 每年增加2cores/chip • SIMD 宽度每4年翻一番 • SIMD潜在加速比是MIMD的2倍 2021/2/1 计算机体系结构 5
data:image/s3,"s3://crabby-images/11c73/11c739f641e9400976737f12958d99507bfbc0a3" alt=""
1000 一 MIMD'SIMD(32b) x-MIMD"SIMD(64 b) A SIMD (32 b) →SMD(64b) HHMIMD 100 10 2003 2007 2011 2015 2019 2023 x86 computers. This figure assumes that two cores per chip for MIMD will be added every two years and the p Figure 4.1 Potential speedup via parallelism from MIMD, SIMD, and both MIMD and SIMD over time for number of operations for SIMd will double every four years 2021/2/1 机体系结构
2021/2/1 计算机体系结构 6
data:image/s3,"s3://crabby-images/1bc0d/1bc0d7696090f0d9f62bbd93405311a2c61b6474" alt=""
Supercomputers Supercomputer的定义: ·对于给定任务而言世界上最快的机器 ·任何造价超过3千万美元的机器 ·计算能力达到每秒万亿次的机器 由 Seymour cray设计的机器 CDC600(ca,1964)被认为是第 台超级计算机 2021/2/1 计算机体系结构
Supercomputers •Supercomputer的定义: •对于给定任务而言世界上最快的机器 •任何造价超过3千万美元的机器 •计算能力达到每秒万亿次的机器 •由Seymour Cray设计的机器 •CDC6600 (Cray, 1964) 被认为是第一 台超级计算机 2021/2/1 计算机体系结构 7
data:image/s3,"s3://crabby-images/6e3ae/6e3aeee6fe9967e22952d93939ed7a59e11e407e" alt=""
CDC 6600 Seymour Cray, 1963 a fast pipelined machine with 60-bit words 128 Kword main memory capacity 32 banks Ten functional units(parallel, unpipelined) Floating Point: adder, 2 multipliers, divider Integer: adder, 2 incrementer, Hardwired control (no microcoding Scoreboard for dynamic scheduling of instructions Ten Peripheral Processors for Input/ Output a fast multi-threaded 12-bit integer alu Very fast clock 10 MHz (fP add in 4 clocks) >400,000 transistors, 750 sq ft, 5 tons, 150 kW, novel freon-based technology for cooling Fastest machine in world for 5 years(until 7600) over 100 sold($7-10M each 计算机体系结构
CDC 6600 Seymour Cray, 1963 • A fast pipelined machine with 60-bit words • 128 Kword main memory capacity, 32 banks • Ten functional units (parallel, unpipelined) • Floating Point: adder, 2 multipliers, divider • Integer: adder, 2 incrementers, ... • Hardwired control (no microcoding) • Scoreboard for dynamic scheduling of instructions • Ten Peripheral Processors for Input/Output • a fast multi-threaded 12-bit integer ALU • Very fast clock, 10 MHz (FP add in 4 clocks) • >400,000 transistors, 750 sq. ft., 5 tons, 150 kW, novel freon-based technology for cooling • Fastest machine in world for 5 years (until 7600) • over 100 sold ($7-10M each) 2021/2/1 8 计算机体系结构
data:image/s3,"s3://crabby-images/86908/869080c5f2e6cfc88ba2bde44e906312ed02670f" alt=""
IBM Memo on cdc6600 Thomas Watson Jr, IBM CEO, August 1963 Last week Control data. announced the 6600 system /understand that in the laborator developing the system there are only 34 people including the janitor. of these, 14 are engineers and 4 are programmers. Contrasting this modest effort with our vast development activities, fail to understand why we have lost our industry leadership position by letting someone else offer the world's most powerful computer. To which Cray replied: "t seems like Mr Watson has answered his own question 2021/2/1 计算机体系结构
IBM Memo on CDC6600 Thomas Watson Jr., IBM CEO, August 1963: “Last week, Control Data ... announced the 6600 system. I understand that in the laboratory developing the system there are only 34 people including the janitor. Of these, 14 are engineers and 4 are programmers... Contrasting this modest effort with our vast development activities, I fail to understand why we have lost our industry leadership position by letting someone else offer the world's most powerful computer.” To which Cray replied: “It seems like Mr. Watson has answered his own question.” 2021/2/1 计算机体系结构 9
data:image/s3,"s3://crabby-images/9a34f/9a34fda91abcb7f3130f577ff44f52bab03174ff" alt=""
Supercomputer Applications 典型应用领域 军事研究领域(核武器硏制、密码学) 科学研究 ·天气预报 石油勘探 工业设计( car crash simulation) 生物信息学 密码学 ●均涉及大量的数据集处理 ●7080年代 Supercomputer= Vector machine 2021/2/1 计算机体系结构 10
Supercomputer Applications ⚫ 典型应用领域 • 军事研究领域(核武器研制、密码学) • 科学研究 • 天气预报 • 石油勘探 • 工业设计 (car crash simulation) • 生物信息学 • 密码学 ⚫均涉及大量的数据集处理 ⚫70-80年代Supercomputer = Vector Machine 2021/2/1 计算机体系结构 10
data:image/s3,"s3://crabby-images/94a1b/94a1b937d806be25a91fa371a00ec621b9253bb3" alt=""
Alternative Model: Vector Processing 向量处理机具有更高层次的操作,一条向量指令 可以处理N个或N对操作数(处理对象是向量) SCALAR VECTOR (1 operation (N operations) vector length add r3, r1, r2 add. vV v3, v1, v2 2021/2/1 计算机体系结构 11
Alternative Model:Vector Processing • 向量处理机具有更高层次的操作,一条向量指令 可以处理N个或N对操作数(处理对象是向量) + r1 r2 r3 add r3, r1, r2 SCALAR (1 operation) v1 v2 v3 + vector length add.vv v3, v1, v2 VECTOR (N operations) 2021/2/1 计算机体系结构 11
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 南京大学:《编译原理》课程教学资源(PPT课件讲稿)第七章 运行时刻环境.ppt
- 《高级人工智能 Advanced Artificial Intelligence》教学资源(PPT讲稿)Lecture 7 Recurrent Neural Network.pptx
- 西安交通大学:《网络与信息安全》课程PPT教学课件(网络入侵与防范)第六章 网络入侵与防范——拒绝服务攻击与防御技术.ppt
- 西安电子科技大学:《计算机通信网》课程教学资源(PPT课件讲稿)第1章 概述(宋锐).ppt
- 中国科学技术大学:《嵌入式操作系统 Embedded Operating Systems》课程教学资源(PPT课件讲稿)第四讲 CPU调度(part II).ppt
- 大数据集成(PPT讲稿)Big Data Integration.pptx
- 《计算机文化基础》课程教学资源(PPT课件讲稿)第七章 计算机网络基础.ppt
- 《计算机应用基础》课程教学资源(PPT课件讲稿)第四章 电子表格软件(Excel 2003).ppt
- 四川大学:《操作系统 Operating System》课程教学资源(PPT课件讲稿)Chapter 3 Process Description and Control 3.1 What is a Process 3.2 Process States 3.3 Process Description.ppt
- 哈尔滨工业大学:《语言信息处理》课程教学资源(PPT课件讲稿)机器翻译 II Machine Translation II.ppt
- Gas Systems Modeling andSimulation with MSC.EASY5:GD Advanced Class Notes(EAS105 Course Notes).ppt
- 《计算机网络 Computer Networking》课程教学资源(PPT课件讲稿,英文版)Chapter 6 Wireless and Mobile Networks.ppt
- 《图像处理与计算机视觉 Image Processing and Computer Vision》课程教学资源(PPT课件讲稿)Chapter 08 Stereo vision.pptx
- 《计算机文化基础》课程教学大纲 Computer Culture Foundation.pdf
- 《高级语言程序设计》课程教学资源(试卷习题)试题五(无答案).doc
- 大连工业大学:《计算机程序设计(C语言版)》课程教学资源(PPT课件讲稿,共十三章).pps
- 《Visual Basic 6.0程序设计》课程教学资源(PPT课件)第四章 常用控件与窗体.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,2017)第11章 图计算.ppt
- 《计算机导论》课程教学资源(PPT课件讲稿)第9章 计算机学科方法论.ppt
- VB.Net程序设计基础(PPT课件讲稿).ppt
- 河南中医药大学(河南中医学院):《计算机网络》课程教学资源(PPT课件讲稿)第六章 应用层.pptx
- 媒体服务(PPT课件讲稿)Media Services.ppt
- 东北大学:《可信计算基础》课程教学资源(PPT课件讲稿)第6章 TPM核心功能(主讲:周福才).pptx
- 山东大学:《人机交互技术》课程教学资源(PPT课件讲稿)第3章 交互设备 3.5 显示设备 3.6 语音交互设备 3.7虚拟现实系统中的交互设备.ppt
- 《网络搜索和挖掘关键技术 Web Search and Mining》课程教学资源(PPT讲稿)Lecture 11 Probabilistic Information Retrieval.ppt
- 广西医科大学:《计算机网络 Computer Networking》课程教学资源(PPT课件讲稿)Chapter 01 Introduction overview.pptx
- 东南大学:《C++语言程序设计》课程教学资源(PPT课件讲稿)Chapter 10 Classes A Deeper Look(Part 2).ppt
- 《网上开店实务》课程教学资源(PPT讲稿)学习情境1 网上开店创业策划.ppt
- 安徽理工大学:《Linux开发基础 Development Foundation on Linux OS》课程资源(PPT课件讲稿)Section 4 Perl programming(赵宝).ppt
- 香港理工大学:Artificial Neural Networks for Data Mining.ppt
- 《TCP/IP协议及其应用》课程教学资源(PPT课件)第1章 TCP/IP协议基础.ppt
- 清华大学:《高级计算机网络 Advanced Computer Network》课程教学资源(PPT课件讲稿)Lecture 1 Introduction.pptx
- 香港浸会大学:C++ as a Better C; Introducing Object Technology.ppt
- 大庆职业学院:《计算机网络技术基础》课程教学资源(PPT课件讲稿)第2章 数据通信的基础知识.ppt
- The Art of Function Design -Measure and RKHS.ppt
- 《计算机网络与因特网》课程教学资源(PPT课件)Part VII 广域网(简称WAN), 路由, 和最短路径.ppt
- 三维计算机视觉 3D computer vision(基于卡尔曼滤波的运动结构).pptx
- 河南中医药大学(河南中医学院):《计算机文化》课程教学资源(PPT课件讲稿)第七章 数据库技术(主讲:王哲).pptx
- 《单片机原理及应用》课程教学资源(PPT课件讲稿)第14章 单片机应用系统抗干扰与可靠性设计.ppt
- 北京航空航天大学:《数据挖掘——概念和技术(Data Mining - Concepts and Techniques)》课程教学资源(PPT课件讲稿)Chapter 01 Introduction.ppt