中国科学院高能所计算中心:高能物理数据的存储和管理(汪璐)

高能物理数据的存储和管理 汪璐 高能所计算中心 2020-8-24
高能物理数据的存储和管理 汪璐 高能所计算中心 2020-8-24

高能物理计算是数据密集型计算 ●对海量的实验和模拟数据进行重建处理、统计分析是验证理论模 型和发现新物理的主要途径 ●数据相关的T技术是高能物理计算绕不开的重要组成部分 ■ 数据发现 ■海量存储 ■/O性能优化 ■数据共享 ■ 数据长期保存 ●快速增长的数据量和分布式的计算环境给高能物理数据的存储和 管理提出了新的挑战 2022/8/24 高能物理暑期学校2020 2
高能物理计算是数据密集型计算 ⚫对海量的实验和模拟数据进行重建处理、统计分析是验证理论模 型和发现新物理的主要途径 ⚫数据相关的IT技术是高能物理计算绕不开的重要组成部分 ◼ 数据发现 ◼ 海量存储 ◼ I/O性能优化 ◼ 数据共享 ◼ 数据长期保存 ⚫快速增长的数据量和分布式的计算环境给高能物理数据的存储和 管理提出了新的挑战 2022/8/24 高能物理暑期学校2020 2

大纲 ●需求和挑战 ●高能所计算中心的海量存储系统 ■分布式文件系统 ■ 磁带管理系统,备份系统,软件存储系统,个人云存储… ■访问接口和使用建议 ●分布式环境下的数据管理技术 ●更详细的课程及课件 ●问题和反馈 2022/8/24 高能物理暑期学校2020 3
大纲 ⚫需求和挑战 ⚫高能所计算中心的海量存储系统 ◼ 分布式文件系统 ◼ 磁带管理系统,备份系统,软件存储系统,个人云存储 … ◼ 访问接口和使用建议 ⚫分布式环境下的数据管理技术 ⚫更详细的课程及课件 ⚫问题和反馈 2022/8/24 高能物理暑期学校2020 3

需求和挑战 2022/8/24 高能物理暑期学校2020
需求和挑战 2022/8/24 高能物理暑期学校2020 4

数据量的快速增长 ●BESIIVBEPCII ●空间天文实验 ■1PB/年 ■HXMT,AliCPT,GECAM ●LHC实验 ■HERD,eXTP(规划立项中) ■数百TB/年 ■50PB每年,传到高能所3-5PB/年 ●光源实验 ●中微子实验 ■HEPS,500TB/天 ■大亚湾:数百TB/年 ■数据保留半年,总量~100PB ■JUNO:2022年运行,预计3PB/ 年 ●宇宙线实验 ■LHAASO,目前3TB/天,2021年 起,预计6PB/年 2022/8/24 高能物理暑期学校2020 5
数据量的快速增长 ⚫BESIII/BEPCII ◼ ~1 PB/年 ⚫LHC实验 ◼ 50 PB每年,传到高能所3-5PB/年 ⚫中微子实验 ◼ 大亚湾:数百TB/年 ◼ JUNO:2022年运行,预计3PB/ 年 ⚫宇宙线实验 ◼ LHAASO,目前3 TB/天, 2021年 起,预计6PB/年 ⚫空间天文实验 ◼ HXMT,AliCPT, GECAM ◼ HERD,eXTP ( 规划立项中 ) ◼ 数百TB/年 ⚫光源实验 ◼ HEPS, 500TB/天 ◼ 数据保留半年,总量~100PB 2022/8/24 高能物理暑期学校2020 5

对存储系统的需求 >百PB存储容量,百GB/s聚合数据读写带宽 >横向扩展的VO性能 >高可用性 >高可靠性 ■原始数据不允许丢失,用户结果数据不允许丢失 ■元数据不允许丢失 >性价比 ■有限预算条件下,尽可能大的存储容量 ■尽可能大数据访问性能=>尽可能大的事例收处理速度 2022/8/24 高能物理暑期学校2020 6
对存储系统的需求 ➢ 百PB存储容量, 百GB/s 聚合数据读写带宽 ➢ 横向扩展的I/O性能 ➢ 高可用性 ➢ 高可靠性 ◼ 原始数据不允许丢失,用户结果数据不允许丢失 ◼ 元数据不允许丢失 ➢ 性价比 ◼ 有限预算条件下,尽可能大的存储容量 ◼ 尽可能大数据访问性能=>尽可能大的事例处理速度 2022/8/24 高能物理暑期学校2020 6

高能物理特色需求 >混合多样的应用类型和数据访问模式 ■模拟、刻度、重建、分析、机器学习 ■以后台作业大块读、一次写多次读为主混合前台交互型小文件读写、后台随机读写 >数据长期保存 ■数据一旦写入磁盘,很少删除 ■数据在数十年的实验周期内,可读、可分析 ■多种存储介质,分级管理 ●跨域数据统一视图,透明访问 2022/8/24 高能物理暑期学校2020
高能物理特色需求 ➢ 混合多样的应用类型和数据访问模式 ◼ 模拟、刻度、重建、分析、机器学习… ◼ 以后台作业大块读、一次写多次读为主, 混合前台交互型小文件读写、后台随机读写 ➢ 数据长期保存 ◼ 数据一旦写入磁盘,很少删除 ◼ 数据在数十年的实验周期内,可读、可分析 ◼ 多种存储介质,分级管理 ⚫ 跨域数据统一视图,透明访问 2022/8/24 高能物理暑期学校2020 7

高能所的海量存储系统 2022/8/24 高能物理暑期学校2020 8
高能所的海量存储系统 2022/8/24 高能物理暑期学校2020 8

高能所的海量存储系统 ●高能所计算中心是中国地区的高能物理数据处理中心 ■BESIII,JUNO,LHAASO等大型实验的Tier-0站点 ■LHC(ATLAS,CMS,LHCb)三个实验的Tier-2站点 ■2019年获批为全国唯一的高能物理科学数据管理中心 ●分布式文件系统为离线数据处理提供海量磁盘存储空间 ●磁带管理系统为冷数据提供绿色节能,高性价比的磁带存储空间 管理个人数据的云存储系统IHEPBOX,备份系统AMANDA,软件和 ●分 镜像管理系统CVMFS等 ●吸收CERN-T,WLCG等领域先进的存储系统建设经验和技术,完全 基于开源软件搭建的海量存储系统 2022/8/24 高能物理暑期学校2020 9
高能所的海量存储系统 ⚫高能所计算中心是中国地区的高能物理数据处理中心 ◼ BESIII, JUNO, LHAASO等大型实验的Tier-0 站点 ◼ LHC( ATLAS, CMS, LHCb) 三个实验的Tier-2 站点 ◼ 2019年获批为全国唯一的高能物理科学数据管理中心 ⚫分布式文件系统 为离线数据处理提供海量磁盘存储空间 ⚫磁带管理系统 为冷数据提供绿色节能,高性价比的磁带存储空间 ⚫管理个人数据的云存储系统 IHEPBOX,备份系统AMANDA,软件和 镜像管理系统CVMFS等 ⚫吸收CERN-IT, WLCG等领域先进的存储系统建设经验和技术,完全 基于开源软件搭建的海量存储系统 2022/8/24 高能物理暑期学校2020 9

分布式文件系统 ●分布式文件系统将数干盘磁盘,数百台服务器组成单一系统镜像 ■集群上所有计算节点和登录节点看到的是同一份视图,可以像访问单机 文件系统一样访问海量的存储资源 ■解决用户资源分配、访问控制、数据可靠性、服务高可用、分级存储等 问题 ●高能所主要的分布式文件系统: ■Lustre:实验数据和用户数据,20PB ■EOS:实验数据,10PB ■AFS:用户认证,home目录,百TB o/besfs,/junofs,/dybfs,/cefs,.../eos/lhaaso... 2022/8/24 高能物理暑期学校2020 10
分布式文件系统 ⚫分布式文件系统将数千盘磁盘,数百台服务器组成单一系统镜像 ◼ 集群上所有计算节点和登录节点看到的是同一份视图,可以像访问单机 文件系统一样访问海量的存储资源 ◼ 解决用户资源分配、访问控制、数据可靠性、服务高可用、分级存储等 问题 ⚫高能所主要的分布式文件系统: ◼ Lustre :实验数据和用户数据,20 PB ◼ EOS:实验数据,10 PB ◼ AFS:用户认证,home目录,百TB ⚫/besfs, /junofs, /dybfs, /cefs, … /eos/lhaaso… 2022/8/24 高能物理暑期学校2020 10
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第九章 排序.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第八章 图.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第七章 搜索结构.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第六章 集合与字典.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第五章 树.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第四章 数组、串与广义表.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第三章 栈和队列.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第二章 线性表.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第十章 文件、外部排序与外部搜索.ppt
- 南京大学:《数据结构 Data Structures》课程教学资源(PPT课件讲稿)第一章 绪论.ppt
- 计算机系统结构课程教材:计算机科学丛书《深入理解计算机系统》【兰德尔E.布莱恩特、大卫R.奥哈拉伦】原书第三版(中文版)PDF电子书(共十二章)Computer Systems A Programmer's Perspective.pdf
- 上海交通大学:《高级计算机系统结构》课程教学资源(讲稿).pdf
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第09章 新型计算机病毒.ppt
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第08章 移动智能终端恶意代码.ppt
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第07章 Linux病毒技术.ppt
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第06章 宏病毒.ppt
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第05章 特洛伊木马(Trojan horse).ppt
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第04章 传统计算机病毒.ppt
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第03章 计算机病毒结构及技术分析.ppt
- 上海交通大学:《恶意代码与计算机病毒(原理、技术和实践)》课程教学资源(PPT课件)第02章 计算机病毒理论模型.ppt
- 中国科学院高能所计算中心:数据技术课程 CSC 2018 Data Technologies Exercises(CSC DT 2018 Introduction).pdf
- 中国科学院高能所计算中心:数据技术上机 Data Technologies – CERN School of Computing 2019.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Writing Parallel software(pres).pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Writing Parallel software(booklet).pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Practical vectorization-pres.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Practical vectorization-booklet.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Modern programming languages for HEP-pres.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Modern programming languages for HEP-booklet.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Optimizing existing large codebase-pres.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Optimizing existing large codebase-booklet.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Structuring data for efficient I/O-pres.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Structuring data for efficient I/O-booklet.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Many ways to store data-pres.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Many ways to store data-booklet.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Preserving data-pres.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Optimizing existing large codebase-pres.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Optimizing existing large codebase-booklet.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Preserving data-booklet.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Key ingredients to achieve effective I/O-pres.pdf
- 中国科学院:CERN专题计算学校《T-CSC数据存储》课程教学资源(讲义)Key ingredients to achieve effective I/O-booklet.pdf