厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第3版)第8章 Hadoop架构再探讨

本章配套教学视频 《大数据技术原理与应用(第3版)》 在线视频观看地址 http://ww.icourse163.org/course/xmu-1002335004 大数据技术原理与应用 BIGDATA TECHNOLOGY AND APPLICATION 打开大数据之门,遨游大数据世界 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 本章配套教学视频 http://www.icourse163.org/course/XMU-1002335004 《大数据技术原理与应用(第3版)》 在线视频观看地址

提纲 81 Hadoop的优化与发展 82HDFS20的新特性 83新一代资源管理调度框架YARN 84 Hadoop生态系统中具有代表性的功能组件 本PPT是如下教材的配套讲义: 《大数据技术原理与应用 -概念、存储、处理、分析与应用》 (2021年1月第3版) SBN:978-7-11554405-6 厦门大学林子雨编著,人民邮电出版社 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata3 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 • 8.1 Hadoop的优化与发展 • 8.2 HDFS2.0的新特性 • 8.3 新一代资源管理调度框架YARN • 8.4 Hadoop生态系统中具有代表性的功能组件 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata3 本PPT是如下教材的配套讲义: 《大数据技术原理与应用 ——概念、存储、处理、分析与应用》 (2021年1月第3版) ISBN:978-7-115-54405-6 厦门大学 林子雨 编著,人民邮电出版社

8.1Hado的优化与发展 811 Hadoop的局限与不足 812针对 Hadoop的改进与提升 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.1Hadoop的优化与发展 8.1.1Hadoop的局限与不足 8.1.2针对Hadoop的改进与提升

8.1.1 Hadoop的局限与不足 Hadoop1.0的核心组件(仅指 MapReduce和HDFS,不包 括 Hadoop生态系统内的Pig、Hive、 HBase等其他组件), 主要存在以下不足 ·抽象层次低,需人工编码 表达能力有限 开发者自己管理作业(Job)之间的依赖关系 难以看到程序整体逻辑 执行迭代操作效率低 资源浪费(Map和 Reduce分两阶段执行) ·实时性差(适合批处理,不支持实时交互式) 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.1.1Hadoop的局限与不足 Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包 括Hadoop生态系统内的Pig、Hive、HBase等其他组件), 主要存在以下不足: •抽象层次低,需人工编码 •表达能力有限 •开发者自己管理作业(Job)之间的依赖关系 •难以看到程序整体逻辑 •执行迭代操作效率低 •资源浪费(Map和Reduce分两阶段执行) •实时性差(适合批处理,不支持实时交互式)

步8.12针对 Hadoop的改进与提升 Hadoop的优化与发展主要体现在两个方面: 一方面是Hado0自身两大核心组件 MapReduce,和 HDFS的架构设计改进 另一方面是 Hadoop生态系统其它组件的不断丰富,加入 Pg、Tez、 Sparki和 Kafka等新组件 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.1.2针对Hadoop的改进与提升 Hadoop的优化与发展主要体现在两个方面: •一方面是Hadoop自身两大核心组件MapReduce和 HDFS的架构设计改进 •另一方面是Hadoop生态系统其它组件的不断丰富,加入 了Pig、Tez、Spark和Kafka等新组件

步8.12针对 Hadoop的改进与提升 表 Hadoop框架自身的改进:从1.0到20 组件 Hadoop1.0的问题 Hado0p20的改进 HDFS 单一名称节点,存在单设计了 HDFS HA,提供 点失效问题 名称节点热备机制 HDFS 单一命名空间,无法实设计了 HDFS Federation, 现资源隔离 管理多个命名空 Mapreduce资源管理效率低 设计了新的资源管理框 架YARN 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.1.2针对Hadoop的改进与提升 组件 Hadoop1.0的问题 Hadoop2.0的改进 HDFS 单一名称节点,存在单 点失效问题 设计了HDFS HA,提供 名称节点热备机制 HDFS 单一命名空间,无法实 现资源隔离 设计了HDFS Federation, 管理多个命名空间 MapReduce 资源管理效率低 设计了新的资源管理框 架YARN 表 Hadoop框架自身的改进:从1.0到2.0

步8.12针对 Hadoop的改进与提升 表不断完善的 Hadoop生态系统 匚组件 功能 解决Had00p中存在的问题」 处理大规模数据的脚本语言,用户只需要|抽象层次低,需要手工编写 编写几条简单的语句,系统会自动转换为大量代码 MapReduce作业 Spark|基于内存的分布式并行编程框架,具有较|延迟高,而且不适合执行迭 高的实时性,并且较好支持迭代计算 代计算 Ooze工作流和协作服务引擎,协调 Hadoop上运「没有提供作业(Job)之间依 行的不同任务 赖关系管理机制,需要用户 自己处理作业之间依赖关系」 Tez 支持DAG作业的计算框架,对作业的操作「不同的 Mapreduce务之间 进行重新分解和组合,形成一个大的DAG存在重复操作,降低了效率 作业,减少不必要操作 Kaka分布式发布订阅消息系统,一般作为企业| Hadoop生态系统中各个组件 大数据分析平台的数据交换枢纽,不同类和其他产品之间缺乏统一的、 型的分布式系统可以统一接入到Kaka,实高效的数据交换中介 现和Hado各个组件之间的不同类型数据 的实时高效交换 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.1.2针对Hadoop的改进与提升 组件 功能 解决Hadoop中存在的问题 Pig 处理大规模数据的脚本语言,用户只需要 编写几条简单的语句,系统会自动转换为 MapReduce作业 抽象层次低,需要手工编写 大量代码 Spark 基于内存的分布式并行编程框架,具有较 高的实时性,并且较好支持迭代计算 延迟高,而且不适合执行迭 代计算 Oozie 工作流和协作服务引擎,协调Hadoop上运 行的不同任务 没有提供作业(Job)之间依 赖关系管理机制,需要用户 自己处理作业之间依赖关系 Tez 支持DAG作业的计算框架,对作业的操作 进行重新分解和组合,形成一个大的DAG 作业,减少不必要操作 不同的MapReduce任务之间 存在重复操作,降低了效率 Kafka 分布式发布订阅消息系统,一般作为企业 大数据分析平台的数据交换枢纽,不同类 型的分布式系统可以统一接入到Kafka,实 现和Hadoop各个组件之间的不同类型数据 的实时高效交换 Hadoop生态系统中各个组件 和其他产品之间缺乏统一的、 高效的数据交换中介 表 不断完善的Hadoop生态系统

8.2HDFS20的新特性 8.2.1HDFS HA 8.2.2HDFS Federation 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.2HDFS2.0的新特性 8.2.1HDFS HA 8.2.2HDFS Federation

g 8.2.1HDFS HA HDFS1.0组件及其功能回顾(具体请参见第3章HDFS) 名称节点保存元数据: (1)在磁盘上: Fslmage和 EditLog (2)在内存中:映射信息,即文件包含哪些块,每个块存储在哪个数据节点 Name Node Data Nodes Data HDFS metadata File. bxt BIk A. Name Node DataNode DNL DNS, DN6 ·存储元数据 ·存储文件内容 Blk B: DNZ, DN1, DN2 元数据保存在内存中 ·文件内容保存在磁盘 Blk Ce ·保存文件, block, datanode·维护了 block id到 datanode本 DN5, DNS, DN9 之间的映射关系 地文件的映射关系 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.2.1HDFS HA HDFS1.0组件及其功能回顾(具体请参见第3章HDFS) 名称节点保存元数据: (1)在磁盘上:FsImage和EditLog (2)在内存中:映射信息,即文件包含哪些块,每个块存储在哪个数据节点

g 8.2.1HDFS HA HDFS1.0存在单点故障问题 第二名称节点( Secondary NameNode)无法解决单点故障问题 Primary Namenode SecondaryNameNode会定期和 Namenode通信 从 NameNode上获取到 Fslmage 和 EditLog文件,并下载到本地的 1. Roll edits 2. Retrieve fsimage and edits from primary 相应目录 edits. new 执行EdtL!og和 Fslmage文件合并 将新的 Fslmage文件发送到 NameNode节点上 name node使用新的 Fslmage和 Editlog (缩小了) 第二名称节点用途 4. Transfer checkpoint to primary 不是热备份 主要是防止日志文件 EditLog过 大,导致名称节点失败恢复时消 耗过多时间 cimage 附带起到冷备份功能 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 8.2.1HDFS HA •HDFS 1.0存在单点故障问题 •第二名称节点(SecondaryNameNode)无法解决单点故障问题 •SecondaryNameNode会定期和 NameNode通信 •从NameNode上获取到FsImage 和EditLog文件,并下载到本地的 相应目录下 •执行EditLog和FsImage文件合并 •将新的FsImage文件发送到 NameNode节点上 •NameNode使用新的FsImage和 EditLog(缩小了) 第二名称节点用途: •不是热备份 •主要是防止日志文件EditLog过 大,导致名称节点失败恢复时消 耗过多时间 •附带起到冷备份功能
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 厦门大学:《数据库系统原理》课程教学资源(PPT课件讲稿,2016版)第四章 数据库安全性.ppt
- 厦门大学:《数据库系统原理》课程教学资源(PPT课件讲稿,2016版)第一章 绪论(林子雨).ppt
- 厦门大学数据库实验室论文阅读报告二.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)课程介绍(主讲:林子雨).ppt
- 厦门大学:《计算机应用基础》PPT讲义课件_第一章 信息与计算机基础.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)第一章 大数据概述.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)第六章 云数据库.ppt
- 厦门大学:《Spark编程基础》课程教学PPT讲义课件(Python版)第4章 RDD编程.ppt
- 厦门大学:《Spark编程基础》课程教学PPT讲义课件(Scala版)第1章 大数据技术概述.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)第七章 MapReduce.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿)第八章 流计算(主讲:林子雨).ppt
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 7 Big Data Concepts and Tools.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 6 Prescriptive Analytics:Optimization and Simulation.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 5 Predictive Analytics II:Text, Web, and Social Media Analytics.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 4 Predictive Analytics I:Data Mining Process, Methods, and Algorithms.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 3 Descriptive Analytics II:Business Intelligence and Data Warehousing.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 2 Descriptive Analytics I:Nature of Data, Statistical Modeling, and Visualization.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 1 An Overview of Business Intelligence, Analytics, and Data Science.doc
- 《商务智能:数据分析的管理视角 Business Intelligence, Analytics, and Data Science:A Managerial Perspective》教学资源(习题,原书第4版)chapter 8 Future Trends, Privacy and Managerial Considerations in Analytics.pdf
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第2版)第3章 分布式文件系统HDFS.ppt
- 厦门大学:《Spark编程基础》课程教学PPT讲义课件(Scala版)第5章 RDD编程.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第3版)第7章 MapReduce.ppt
- 厦门大学:《大数据处理技术 Spark》课程讲义(PPT教学课件)第1章 大数据技术概述.ppt
- 厦门大学:《大数据处理技术 Spark》课程讲义(PPT教学课件)第2章 Scala语言基础.ppt
- 厦门大学:《大数据导论》课程讲义(PPT教学课件)第7章 数据处理与分析.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第2版)课程介绍(主讲:林子雨).ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第3版)第3章 分布式文件系统HDFS.ppt
- 厦门大学:《计算机应用基础》PPT讲义课件_第二章 操作系统Windows XP.ppt
- 厦门大学:《大数据技术原理与应用》课程教学资源(PPT课件讲稿,第3版)第6章 云数据库.ppt
- 复旦大学:《高级Web技术》课程教学大纲(戴开宇).doc
- 《高级Web技术》参考资料:MyEclipse创建基于X-File的Web service及调用实例详解.pdf
- 《高级Web技术》参考资料:Architectural Styles and the design of Network-based Software Achitectures.pdf
- 《高级Web技术》参考资料:MyEclipse 6 Java 开发中文教程_第十一章 开发Spring+Struts+Hibernate应用.pdf
- 《高级Web技术》参考资料:Spring中文教程(Spring Framework开发参考手册 version 1.1).pdf
- 《高级Web技术》参考资料:MyEclipse 6 Java 开发中文教程_第十六章 开发EJB应用.pdf
- 《高级Web技术》参考资料:MyEclipse 6 Java 开发中文教程_第十五章 开发XFire Web Service应用.pdf
- 《高级Web技术》参考资料:深入Spring 2:轻量级J2EE开发框架原理与实践_第五章 面向切面的编程(AOP)及在Spring中的应用.pdf
- 《高级Web技术》参考资料:SSH Step by Step Tutorial.doc
- 《高级Web技术》参考资料:Building Social Web Applications.pdf