中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第十讲 大数据的处理和分析

课程内容 课程内容 围绕学科理论体系中的模型理论,程序理论和计算理论 1.模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何 比较模型的表达能力 本次讲座与这些内容关系 2.程序理论关心的问题不大 给定模型M,如何用模型M解决问题 包括程序设计范型、程序设计语言、程序设计、 形式语义、类型论、程序验证、程序分析等 3.计算理论关心的问题 给定模型M和一类问题,解决该类问题需多少资源
课 程 内 容 • 课程内容 围绕学科理论体系中的模型理论, 程序理论和计算理论 1. 模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何 比较模型的表达能力 2. 程序理论关心的问题 – 给定模型M,如何用模型M解决问题 – 包括程序设计范型、程序设计语言、程序设计、 形式语义、类型论、程序验证、程序分析等 3. 计算理论关心的问题 给定模型M和一类问题, 解决该类问题需多少资源2 本次讲座与这些内容关系 不大

讲座提纲 大数据的魅力 -数据挖掘、大数据、大数据案例、大数据的特点 大数据时代的思维变革 样本和全体、精确性和混杂性、因果关系和相关 关系 大数据的处理 -几种主要处理方式、MapReduce编程模型 大数据的分析 关键技术概述、PageRank初步 3
讲 座 提 纲 • 大数据的魅力 – 数据挖掘、大数据、大数据案例、大数据的特点 • 大数据时代的思维变革 – 样本和全体、精确性和混杂性、因果关系和相关 关系 • 大数据的处理 – 几种主要处理方式、MapReduce编程模型 • 大数据的分析 – 关键技术概述、PageRank初步 3

大数据的魅力 数据挖掘 数据挖掘的定义 1.从数据中提取出隐含的、过去未知的、有价值 的潜在信息 2.从大量数据或者数据库中提取有用信息的科学 -相关概念:知识发现 1.数据挖掘是知识发现过程中的一步 2.粗略看:数据预处理→数据挖掘→数据后处理 预处理:将未加工输入数据转换为适合处理的形式 后处理:如可视化,便于从不同视角探查挖掘结果
• 数据挖掘 – 数据挖掘的定义 1. 从数据中提取出隐含的、过去未知的、有价值 的潜在信息 2. 从大量数据或者数据库中提取有用信息的科学 – 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理→数据挖掘→数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结果 大数据的魅力 4

大数据的魅力 数据挖掘 典型事例:购物篮分析 顾客 一次购买商品 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 黄油、。 咖啡、尿布、牛奶、鸡蛋 4 黄油、鲑鱼、鸡 5 6 鸡 、 面包、黄油 7 尿布、牛奶 面 、茶叶、糖、鸡蛋 89 啡、糖、鸡、 鸡蛋 面包、 尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶 5
• 数据挖掘 – 典型事例:购物篮分析 顾客 一次购买商品 1 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 面包、黄油、咖啡、尿布、牛奶、鸡蛋 4 面包、黄油、鲑鱼、鸡 5 鸡蛋、面包、黄油 6 鲑鱼、尿布、牛奶 7 面包、茶叶、糖、鸡蛋 8 咖啡、糖、鸡、鸡蛋 9 面包、尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶 大数据的魅力 5

大数据的魅力 数据挖掘 典型事例:购物篮分析 顾客 一次购买商品 面包、黄油、尿布、 牛奶 2 咖啡、 糖、小甜饼、鲑鱼 3 黄油、, 咖啡、尿布、 牛奶、鸡蛋 4 包 黄油、鲑鱼、鸡 5 面包、 黄油 6 鱼、 尿布、牛奶 7 包、茶叶、糖、鸡蛋 8 咖啡、糖、 鸡、鸡蛋 9 面包、 尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、 尿布、牛奶 经关联分析,可发现顾客经常同时购买的商品:尿布→年奶
• 数据挖掘 – 典型事例:购物篮分析 顾客 一次购买商品 1 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 面包、黄油、咖啡、尿布、牛奶、鸡蛋 4 面包、黄油、鲑鱼、鸡 5 鸡蛋、面包、黄油 6 鲑鱼、尿布、牛奶 7 面包、茶叶、糖、鸡蛋 8 咖啡、糖、鸡、鸡蛋 9 面包、尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶 经关联分析,可发现顾客经常同时购买的商品:尿布→牛奶 大数据的魅力 6

大数据的魅力 大数据 大数据,或称海量数据, 指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 例如:Google每天有来自全球30亿条搜索指令 每天都有成千上万的人通过Google搜索信息, 从出游的路线和耗时、治疗某种疾病的方法和某 研究方向的最新学术资料,各式各样的搜索要求 都有 ·这样的搜索引擎无疑极大地方便了人们的生活 和工作
• 大数据 – 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 – 例如: Google每天有来自全球30亿条搜索指令 • 每天都有成千上万的人通过Google搜索信息, 从出游的路线和耗时、治疗某种疾病的方法和某 研究方向的最新学术资料,各式各样的搜索要求 都有 • 这样的搜索引擎无疑极大地方便了人们的生活 和工作 大数据的魅力 7

大数据的魅力 大数据 大数据,或称海量数据, 指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 -这一系列搜索数据从侧面显示出搜索这些信息的 人的本身情况,比如他们的想法、需求、忧虑等 非常有价值的信息 如果这些搜索数据能准确地反映人们的生活和工 作状况,那么就有可能利用这些信息来察觉商业 趋势、避免疾病扩散、打击犯罪、测定实时交通 路况和预测选举结果等
• 大数据 – 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 – 这一系列搜索数据从侧面显示出搜索这些信息的 人的本身情况,比如他们的想法、需求、忧虑等 非常有价值的信息 – 如果这些搜索数据能准确地反映人们的生活和工 作状况,那么就有可能利用这些信息来察觉商业 趋势、避免疾病扩散、打击犯罪、测定实时交通 路况和预测选举结果等 大数据的魅力 8

大数据的魅力 大数据 大数据,或称海量数据, 指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 与小数据集的比较: 在总数据量相同的情况下,与个别分析独立的 小型数据集相比,将各个小型数据集合并后进行 大数据分析可得出许多额外的信息和数据关联性 这正是大型数据集盛行的原因 数据挖掘则是探讨用以解析大数据的方法
• 大数据 – 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 – 与小数据集的比较: 在总数据量相同的情况下,与个别分析独立的 小型数据集相比,将各个小型数据集合并后进行 大数据分析可得出许多额外的信息和数据关联性 – 这正是大型数据集盛行的原因 – 数据挖掘则是探讨用以解析大数据的方法 大数据的魅力 9

大数据的魅力 大数据案例一谷歌预测冬季流感的传播 2008年11月谷歌启动“谷歌流感趋势”(Google Flu Trends,GFT)项目 GFT项目把5000万个美国人最频繁检索的词项与 美国疾病预防控制中心告知的2003年~2008年季 节性流感传播期间的数据进行比较,以确定相关 检索词项 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型
• 大数据案例—谷歌预测冬季流感的传播 – 2008年11月谷歌启动“谷歌流感趋势”(Google Flu Trends, GFT) 项目 – GFT项目把5000万个美国人最频繁检索的词项与 美国疾病预防控制中心告知的2003年~2008年季 节性流感传播期间的数据进行比较,以确定相关 检索词项 – 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型 大数据的魅力 10

大数据的魅力 大数据案例一谷歌预测冬季流感的传播 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GT共处理了4.5亿个不 同的数学模型 在把得出的预测与2007年和2008年疾病预防控制 中心记录的实际流感病例进行对比后,GFT的软 件发现了45个检索词项的组合 把这些检索词项用于一个特定的数学模型后,其 预测与官方数据相关性高达97%
• 大数据案例—谷歌预测冬季流感的传播 – 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型 – 在把得出的预测与2007年和2008年疾病预防控制 中心记录的实际流感病例进行对比后,GFT的软 件发现了45个检索词项的组合 – 把这些检索词项用于一个特定的数学模型后,其 预测与官方数据相关性高达97% 大数据的魅力 11
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第九讲 新型计算模型和顺序交互的数学.ppt
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第六讲 计算复杂性和算法分析.ppt
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第八讲 多核体系结构与并行编程模型.ppt
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第七讲 面向计算机体系结构的程序优化.ppt
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第四讲 离散数学与计算机科学.pptx
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第五讲 经典计算的计算模型.pptx
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第三讲 编程语言的类型系统.pptx
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第二讲 对程序进行推理的逻辑.ppt
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)第一讲 代数等式理论的自动定理证明.ppt
- 中国科学技术大学:《计算机科学导论》课程教学资源(PPT课件讲稿)课程简介(主讲:陈意云).ppt
- 《计算机学报》:形状图理论的定理证明 Automated theorem proving for theory of shape graphs.pdf
- 形状图逻辑和形状系统 Shape graph logic and shape system.pdf
- A Shape Graph Logic and A Shape System.pdf
- 一个程序验证器的设计和实现 An Automatic Program Verifier for PointerC.pdf
- 处理指针相等关系不确定的指针逻辑 Pointer logic dealing with uncertain equality of pointers.pdf
- 一种用于指针程序验证的指针逻辑 Pointer logic for verification of pointer programs.pdf
- 《软件学报》:用于指针逻辑的自动定理证明器 Automated theorem prover for pointer logic.pdf
- Certifying Concurrent Programs Using Transactional Memory.pdf
- 一种构造代码安全性证明的方法.pdf
- 安全语言PointerC的设计及形式证明 Design and proof of a safe programming language Pointer.pdf
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第1章 引论(主讲:张昱、陈意云).ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第2章 词法分析.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第3章 语法分析.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第4章 语法制导的翻译.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第5章 类型检查.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第6章 运行时存储空间的组织和管理.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第10章 依赖于机器的优化.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第11章 编译系统和运行系统.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第12章 面向对象语言的编译.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第13章 函数式语言的编译.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第7章 中间代码生成.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第8章 代码生成.ppt
- 中国科学技术大学:《编译原理与技术》课程教学资源(PPT课件讲稿)第9章 独立于机器的优化.ppt
- 中国科学技术大学:《程序分析与程序验证》课程教学资源(PPT课件讲稿)第1章 引言(主讲:陈意云).ppt
- 中国科学技术大学:《程序分析与程序验证》课程教学资源(课件讲稿)第2章 数据流分析(Nielson等)Principles of Program Analysis - Data Flow Analysis.pdf
- 中国科学技术大学:《程序分析与程序验证》课程教学资源(PPT课件讲稿)第2章 数据流分析(补充).ppt
- 中国科学技术大学:《程序分析与程序验证》课程教学资源(课件讲稿)第3章 基于约束的分析(Nielson等)Principles of Program Analysis - Control Flow Analysis.pdf
- 中国科学技术大学:《程序分析与程序验证》课程教学资源(PPT课件讲稿)第3章 基于约束的分析(补充).ppt
- 中国科学技术大学:《程序分析与程序验证》课程教学资源(课件讲稿)第4章 抽象解释(Nielson等)Principles of Program Analysis - Abstract Interpretation.pdf
- 中国科学技术大学:《程序分析与程序验证》课程教学资源(PPT课件讲稿)第4章 抽象解释(补充).ppt