中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)13 存储器-4(存储系统的可靠性——校验、RAID)

® 存储系统的可靠性 llxx@ustc.edu.cn
存储系统的可靠性 llxx@ustc.edu.cn

内容提要 ·校验码技术,RV$5.5 -海明码:存储器,唐$4.2.6 -CRC码:磁盘,网络,唐$4.4.6 硬盘数据保护技术 ·RAID技术:磁盘阵列,RV$5.11
内容提要 • 校验码技术,RV$5.5 – 海明码:存储器,唐$4.2.6 – CRC码:磁盘,网络,唐$4.4.6 • 硬盘数据保护技术 • RAID技术:磁盘阵列,RV$5.11

Google2009:数据存储设备可靠性 ·DRAM错误率超出人们预想 “可能成为系统宕机和服务中断的罪魁祸首'” DMM中有约8.2%受到了可修正错误的影响 平均一个DIMM每年发生3700次可修正错误 错误类型:软错误、硬错误 ·由电磁干扰或者硬件故障所导致 。 软错误:很少损坏字位,是可修正的; 硬错误:会损坏字位而成为物理缺陷,从而造成数 据错误的反复发生。 硬盘:数据失效率高达6%(厂商:2%)》 一错误类型:位跳变(可由ECC纠错),物理损坏
Google2009:数据存储设备可靠性 • DRAM错误率超出人们预想 – “可能成为系统宕机和服务中断的罪魁祸首” • DIMM中有约8.2%受到了可修正错误的影响 • 平均一个DIMM每年发生3700次可修正错误 – 错误类型:软错误、硬错误 • 由电磁干扰或者硬件故障所导致 • 软错误:很少损坏字位,是可修正的; • 硬错误:会损坏字位而成为物理缺陷,从而造成数 据错误的反复发生。 • 硬盘:数据失效率高达6%(厂商:2%) – 错误类型:位跳变(可由ECC纠错),物理损坏

“风云一号”气象卫星提前退役 宇宙环境中存在大量由电子、质子和α粒子 等高能粒子构成的宇宙射线,当这些穿透力 很强的射线轰击半导体电路时,可能导致 PN结存储的电量发生瞬态变化. 虽然这种瞬态故障一般不会对硬件造成持 久伤害,但是可以通过改变传输信号和存储 单元值等方式影响系统的正常运行,严重时 会造成系统崩溃 硬件瞬态故障对系统可靠性的影响可分为 数据流错误和控制流错误
“风云一号”气象卫星提前退役 • 宇宙环境中存在大量由电子、质子和 α粒子 等高能粒子构成的宇宙射线, 当这些穿透力 很强的射线轰击半导体电路时, 可能导致 PN 结存储的电量发生瞬态变化. • 虽然这种瞬态故障一般不会对硬件造成持 久伤害 ,但是可以通过改变传输信号和存储 单元值等方式影响系统的正常运行, 严重时 会造成系统崩溃 • 硬件瞬态故障对系统可靠性的影响可分为 数据流错误和控制流错误

FAULT-TOLERANT COMPUTING STC Failure(失效故障):When a component is not living up to its specifications,a failure occurs Error(错误):The part of a component's state that can lead to a failure Fault(缺陷/故障):The cause of an error..Types: - Transient(偶发):occur once,then disappear -Intermittent(间歇:occur,.then vanish,then reappear -Permanent(持久):continues to exist 指标 -可靠性:MTBF=MTTF+MTTR,AFR -可用性=MTTF/(MTTF+MTTR) 9°s Availability Downtime/Year Examples MTBF 1 90.0% 36 days 12 hours Personal clients 2 99.0% 87 hours 36 minutes Entry-level businesses MTTF MTTD MTTR MTTF 3 99.9% 8 hours 46 minutes ISPs,mainstream businesses Correct behavior Diagnose Repair Correct behavior Time 4 99.99% 52 minutes 33 seconds Data centers 5 99.999% 5 minutes 15 seconds Carrier-grade Telco,medical, First Begin End Second banking Failure Repair Repair Failure 99.9999% 31.5 seconds Military defense system
FAULT-TOLERANT COMPUTING • Failure(失效/故障): When a component is not living up to its specifications, a failure occurs • Error(错误): The part of a component's state that can lead to a failure • Fault(缺陷/故障): The cause of an error. Types: – Transient(偶发): occur once, then disappear – Intermittent(间歇): occur, then vanish, then reappear – Permanent(持久): continues to exist • 指标 – 可靠性:MTBF = MTTF+MTTR,AFR – 可用性=MTTF/(MTTF+MTTR)

Fault Tolerance:Redundancy 提高MTTF:避免,容忍,预测 -故障“难以消除(eliminate),只能掩盖(mask) 。 容错计算系统:出现一定限度的失效时,依然能够提供所 需要的服务. 一服务降级:使之不影响系统的正常使用 冗余 Information redundancy Eg,a Hamming code can be added to transmitted data to recover from noise on the tansmission line. Time redundancy is especially helpful for transient or intermittent faults. ·Eg,using transactions(▣滚,rollback) Physical redundancy Eg,747s have four engines but can fly on three ·RAID 容错能力:检错(发现,定位),纠错
Fault Tolerance:Redundancy • 提高MTTF:避免,容忍,预测 – 故障“难以消除(eliminate),只能掩盖(mask)” • 容错计算系统:出现一定限度的失效时,依然能够提供所 需要的服务. – 服务降级:使之不影响系统的正常使用 • 冗余 – Information redundancy • Eg, a Hamming code can be added to transmitted data to recover from noise on the tansmission line. – Time redundancy • is especially helpful for transient or intermittent faults. • Eg, using transactions(回滚,rollback) – Physical redundancy • Eg, 747s have four engines but can fly on three • RAID • 容错能力:检错(发现,定位),纠错

Error Checking and Correcting Two major types of data errors can occur in data transmission: -hard errors,which are permanent,arise from broken interconnects,internal shorts,or open leads - soft errors,which are transient,are caused by system noise,power surges,and alpha particles. The processor (MIPS R4000)verifies data correctness by using either the parity or the SECDED code as it passes data from the System interface to the secondary cache,or it moves data from the secondary cache to the primary caches or to the System interface
Error Checking and Correcting • Two major types of data errors can occur in data transmission: – hard errors, which are permanent, arise from broken interconnects, internal shorts, or open leads – soft errors, which are transient, are caused by system noise, power surges, and alpha particles. • The processor(MIPS R4000)verifies data correctness by using either the parity or the SECDED code as it passes data from the System interface to the secondary cache, or it moves data from the secondary cache to the primary caches or to the System interface

奇偶编码校验 (Parity Check Code) ·编码规则 在被传送的n位代码(bn.bn2bbo)上(最后)增加一位校 验位P(Parity),将原数据与奇(偶)校验位(生成 算法)一起进行存取或传送(即传送Pbn.bn-2bb))。 奇校验:使“1”的个数为奇数 ·00000000->000000001 ·00000001->000000010 一 偶校验:使“1”的个数为偶数 ·00000000->000000000 ·00000001->000000011 ·为什么能容错?具有什么容错能力?
奇偶编码校验(Parity Check Code) • 编码规则 – 在被传送的n位代码(bn-1bn-2 ...b1b0 )上(最后)增加一位校 验位P(Parity),将原数据与奇(偶)校验位(生成 算法)一起进行存取或传送(即传送Pbn-1bn-2 ...b1b0 ) 。 – 奇校验:使“1”的个数为奇数 • 0000 0000->0000 0000 1 • 0000 0001->0000 0001 0 – 偶校验:使“1”的个数为偶数 • 0000 0000->0000 0000 0 • 0000 0001->0000 0001 1 • 为什么能容错?具有什么容错能力?

0000 0000 0001 0001 0010 0010 合法编码 0011 0011 0100 0100 0101 0101k 非法编码 4位表示 0110 4位表示 0110 16个状态 0111 8个状态 0111 《通信原理》 不能检出错误! 1000 可能检出错误! 1000 码距:海明(Hamming)距离 1001 1001 两个等长码字之间对应位 1010 1010 不同的个数 1011 1011 相邻两个合法码字之间的不相 1100 1100 同位数 1101 1101 1110 1110 奇偶,格雷,海明,Reed Solomon? 1111 1111
0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 4位表示 16个状态 不能检出错误! 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 4位表示 8个状态 可能检出错误! 合法编码 非法编码 《通信原理》 码距:海明(Hamming)距离 两个等长码字之间对应位 不同的个数 相邻两个合法码字之间的不相 同位数 奇偶,格雷,海明,ReedSolomon?

编码纠错理论 USTC 任何一种编码是否具有检测能力或纠错能力,都与 编码的最小距离有关。 根据纠错律论:L-1=D+C且D>=C 即编码最小距离L越大,则其检测错误的位数D也越大, 纠正错误位数C也越大,且纠错能力恒小于或等于检测 能力。 ·例如,L=3,则D=2,C=0;或D=1,C=1。 一增大L,提高检错和纠错能力。 应用 一内存:奇偶,ECC(错误检查和纠正),SECDED 硬盘:CRC -通信:奇偶(串行,物理层),海明,CRC(网络层)
编码纠错理论 • 任何一种编码是否具有检测能力或纠错能力,都与 编码的最小距离有关。 • 根据纠错律论:L-1=D+C 且 D>=C – 即编码最小距离L越大,则其检测错误的位数D也越大, 纠正错误位数C也越大,且纠错能力恒小于或等于检测 能力。 • 例如,L=3,则D=2,C=0;或D=1,C=1。 – 增大L,提高检错和纠错能力。 • 应用 – 内存:奇偶,ECC(错误检查和纠正),SECDED – 硬盘:CRC – 通信:奇偶(串行,物理层),海明,CRC(网络层)
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)12 存储器-3(虚拟存储器).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)11 存储器-2(外存储器).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)10 存储器-1(SRAM/DRAM原理、主存系统构建).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)09 存储器-0(层次存储概述、Cache).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)08 RV处理器设计——异常.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)07 RV处理器设计(流水线冒险、分支、多发射).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)06 RV处理器设计——流水线冲突及冒险.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)05 RV处理器设计——流水线.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)04 RV处理器设计(多周期、微程序).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)03 处理器设计(单周期).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)02 指令系统.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)01 概述.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)课程简介(主讲:李曦).pdf
- 中国科学技术大学:《高级操作系统 Advanced Operating System》课程PPT教学课件(分布式系统设计)分布式程序设计(主讲:熊焰).ppt
- 中国科学技术大学:《高级操作系统 Advanced Operating System》课程PPT教学课件(分布式系统设计)分布式进程调度和容错.ppt
- 中国科学技术大学:《高级操作系统 Advanced Operating System》课程PPT教学课件(分布式系统设计)处理机分配算法举例(部分).ppt
- 中国科学技术大学:《高级操作系统 Advanced Operating System》课程PPT教学课件(分布式系统设计)分布式路由算法(3/3).ppt
- 中国科学技术大学:《高级操作系统 Advanced Operating System》课程PPT教学课件(分布式系统设计)分布式路由算法(2/3).ppt
- 中国科学技术大学:《高级操作系统 Advanced Operating System》课程PPT教学课件(分布式系统设计)分布式路由算法(1/3).ppt
- 中国科学技术大学:《安全操作系统》课程教学资源(PPT课件讲稿)第十一讲 国外知名安全操作系统介绍——SELinux CaseStudy SELinux.ppt
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)14 系统互连与通信——总线(同步、仲裁).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2022)15 外设、输入输出系统.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)课程简介.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)01 概述(主讲:李曦).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)02 指令系统.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)03 RV处理器设计——单周期.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)04 RV处理器设计——多周期.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)05 RV处理器设计——流水线.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)06 RV处理器设计——流水线冲突及冒险.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)07 RV处理器设计——流水线冒险、分支、多发射.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)08 RV处理器设计——异常与中断.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)10 存储器(SRAM/DRAM原理、主存系统构建).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)09 存储器(层次存储概述、Cache).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)11 存储器(外存储器).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)12 存储器(虚拟存储器).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)13 存储器(存储系统的可靠性).pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)14 系统互连与通信——总线.pdf
- 中国科学技术大学:《计算机组成原理》课程教学资源(课件讲稿,2023)15 IO系统——外设、输入输出系统.pdf
- 中国科学技术大学:《嵌入式系统设计方法》课程教学资源(课件讲稿,第一版)01 嵌入式实时系统设计方法概论(主讲:李曦)Embedded real-time systems(Embedded Computing).pdf
- 中国科学技术大学:《嵌入式系统设计方法》课程教学资源(课件讲稿,第一版)02 ARM体系结构(Advanced RISC Machines).pdf