北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第1章 绪论 Introduction to Data Science(主讲:韩爱庆)

@ 数据科学导论 绪论 韩爱庆 北京中医药大学管理学院 2020.09
绪 论 韩爱庆 北京中医药大学 管理学院 2020.09 数据科学导论

目录 数据科学导论 ·数据科学定义 ·数据科学研究目的 ·数据科学发展简史 ·数据科学理论体系 ·数据科学基本流程 ·数据科学人才类型 ·如何继续学习
数据科学理论与实践 目录 数据科学导论 ▪ 数据科学定义 ▪ 数据科学研究目的 ▪ 数据科学发展简史 ▪ 数据科学理论体系 ▪ 数据科学基本流程 ▪ 数据科学人才类型 ▪ 如何继续学习

数据科学定义
数据科学定义

术语定义 数据科学导论 DIKW金字塔(DIKW Pyramid)模型揭示了数据(Data)与信息(Information)、 知识(Knowledge)与智慧(Wisdom)之间的区别与联系,如图1-1所示。 运用知识,并结合经验 创造性地预测、解释、 未来 智慧 发现等 Wisdom 从(多条)信息中发现 的共性规律、模式, Knowledge 知识 模型、理论、方法等 过去 数据,尤其是多条数 Information 信息 据所共同反映的现实 世界中的现象 Data 数据 现实世界的记录 图1-1DIKW金字塔模型
数据科学理论与实践 术语定义 数据科学导论 ▪ DIKW金字塔(DIKW Pyramid)模型揭示了数据(Data)与信息(Information)、 知识 (Knowledge)与智慧(Wisdom)之间的区别与联系,如图1-1所示

什么是数据(Data) 数据科学导论 ·数据是载荷信息的载体,是数字、 文字、语音、图形、图像、动画▣、 数据≠数值 文字 视频、多媒体、富媒体等多种形式 数值 图形 的记录。 语音 视频 图像 多 媒体 动画 ·例如,身高为180cm,体重为75kg 富 媒体
数据科学理论与实践 什么是数据(Data) 数据科学导论 ▪ 数据是载荷信息的载体,是数字、 文字、语音、图形、图像、动画、 视频 、多媒体、富媒体等多种形式 的记录。 ▪ 例如,身高为180cm,体重为75kg 数据 数值 数值 文字 视频 图像 语音 ... 图形 多 媒体 富 媒体 动画

什么是信息(information) 数据科学导论 ·信息。信息是具有时效性的有一定含义的,有逻辑的、经过加工处理的、对 决策有价值的数据流。 ■:例如,张三同学的身高为180cm,体重为75kg等信息是依附在该同学身上的 客观存在
数据科学理论与实践 什么是信息(information) 数据科学导论 ▪ 信息。信息是具有时效性的有一定含义的,有逻辑的、经过加工处理的、对 决策有价值的数据流。 ▪ 例如,张三同学的身高为180cm,体重为75kg等信息是依附在该同学身上的 客观存在

什么是知识 数据科学导论 ■知识。人们从(多条)信息中发现的共性规律、模式、模型、理论、方法等 ·通常根据能否清晰地表述和有效地转移,将知识分为两种:显性知识( Explicit Knowledge)和隐性知识(Tacit Knowledge)。 ·例如,通过计量和记录的方式获得多个同学的身高和体重数据之后,用数据 分析方法洞见大学生的身高与体重之间的内在联系或潜在模式,即获得关于 大学生身高和体重的知识
数据科学理论与实践 什么是知识 数据科学导论 ▪ 知识。人们从(多条)信息中发现的共性规律、模式、模型、理论、方法等 ▪ 通常根据 能否清晰地表述和有效地转移,将知识分为两种:显性知识( Explicit Knowledge) 和隐性知识(Tacit Knowledge)。 ▪ 例如,通过计量和记录的方式获得多个同学的身高和体重数据之后,用数据 分析方法洞见大学生的身高与体重之间的内在联系或潜在模式,即获得关于 大学生身高和体重的知识

数据的结构 数据科学导论 ·从结构化程度看,通常将数据分为结构化数据、半结构化数据和非结构化数 据三种,如表1-1所示。 ·在数据科学中,数据的结构化程度对于数据处理方法的选择具有重要影响。 例如,结构化数据的管理可以采用传统关系数据库技术,而非结构化数据的管 理往往采用NoSQL、NewSQL或关系云技术。 表11结构化数据,非结构化数据与半结构化数据的区别与联系 型 学 义 本 东 举 例 直接可以用传统关系数据 结构化数据 库存储和管理的数据 先有结构,后有数据 关系型数据库中的 数据 无法用关系数据岸存储和 非结构化数据 没有(或难以发现)统一 管理的数据 结构的数据 语音、图像文件等 经过一定转换处理后可以 半结构化数据 用传统关系数据库存储和管 先有数据,后有结构(或 较容易发现其结构) HTML,XML文件等 理的数据
数据科学理论与实践 数据的结构 数据科学导论 ▪ 从结构化程度看,通常将数据分为结构化数据、半结构化数据和非结构化数 据三种,如 表1-1所示。 ▪ 在数据科学中,数据的结构化程度对于数据处理方法的选择具有重要影响。 例如,结构化数据的管理可以采用传统关系数据库技术,而非结构化数据的管 理往往采用 NoSQL、NewSQL或关系云技术

大数据(Big Data) 数据科学导论 Gartner的定义 。 大数据指的是无法使用传统流程或工具处理或分析的信息,是需要新处理模式才能具有更 强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ■IBM的定义 ·大数据是拥有以下四个共同特点(又称为4V)中任意一个的数据源:极大的数据量级( Volumn);以极快的速度(Velocity)移动数据;极广泛的数据源类型(Variety);极 高的准确性(Veracity),确保数据源的真实性。 ■国家标准《信息技术大数据术语(GB/T35295-2017)》中的定义 ·大数据是指具有体量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结 构有效处理的包含大最数据集的数据
数据科学理论与实践 大数据(Big Data) 数据科学导论 ▪ Gartner的定义 • 大数据指的是无法使用传统流程或工具处理或分析的信息,是需要新处理模式才能具有更 强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ▪ IBM的定义 • 大数据是拥有以下四个共同特点(又称为4V)中任意一个的 数据源:极大的数据量级( Volumn);以极快的速度(Velocity)移动数据;极广泛的数据源类型(Variety);极 高的准确性(Veracity),确保数据源的真实性。 ▪ 国家标准《信息技术大数据术语(GB/T 35295-2017)》中的定义 • 大数据是指具有体量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结 构有效处理的包含大最数据集的数据

大数据-单位关系 数据科学导论 1KB (Kilobyte)=210B 1MB (Megabyte)=210KB=220B 1GB (Gigabyte)=210MB=220KB=230B 1TB (Terabyte)=210GB=220MB=230KB=240B 1PB (Petabyte)=210TB=220GB=230MB=240KB=250B 1EB (Exabyte)=210PB=220TB=230GB=240MB=250KB=260B 1ZB (Zettabyte)=210EB=220PB=230TB=240GB=250MB=260KB=270B 1YB (Yottabyte)=210ZB=220EB=230PB-240TB-250GB=260MB=270KB=280B 1NB (NonaByte)=210YB=220ZB=230EB=240PB=250TB=260GB=270MB-280KB-290B 1DB (DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB-270GB-280MB-290KB=2100B
数据科学理论与实践 大数据-单位关系 数据科学导论 1KB(Kilobyte)=210B 1MB(Megabyte)=210KB=220B 1GB(Gigabyte)=210MB=220KB=230B 1TB(Terabyte)=210GB=220MB=230KB=240B 1PB(Petabyte)=210TB=220GB=230MB=240KB=250B 1EB(Exabyte)=210PB=220TB=230GB=240MB=250KB=260B 1ZB(Zettabyte)=210EB=220PB=230TB=240GB=250MB=260KB=270B 1YB(Yottabyte)=210ZB=220EB=230PB=240TB=250GB=260MB=270KB=280B 1NB(NonaByte) =210YB=220ZB=230EB=240PB=250TB=260GB=270MB=280KB=290B 1DB(DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 国家中医药管理局:中医医院信息系统基本功能规范(修订,征求意见稿,2019年3月).pdf
- 《管理信息系统》课程教学资源(书籍教材)第2章 管理信息系统的技术基础.pdf
- 南京大学:《信息与计算科学导论》课程教学资源(课件讲稿)递归算法与递归方程 Recursive Algorithm and Recurrence Relations.pdf
- 南京大学:《信息与计算科学导论》课程教学资源(课件讲稿)集合与关系 Sets-and-Relations.pdf
- 长沙医学院:信息工程学院课程简介.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第12章 Web搜索.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)数据挖掘经典算法概述.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)图像分类的算法思想.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第11章 文本聚类.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)概率图及主题模型 Probabilistic Graphical Models Topic Model.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(支持向量机及机器学习方法).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(基于向量空间的文本分类).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第10章 文本分类(文本分类及朴素贝叶斯方法).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)矩阵分解在信息检索中的应用.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)课程要求(论文阅读&研讨).pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第9章 基于语言建模的检索模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第8章 概率模型.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第7章 相关反馈和查询扩展.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第6章 检索的评价.pdf
- 中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第5章 向量模型及检索系统 5.2 检索系统.pdf
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第2章 计算机基础.pptx
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第3章 计算机网络.pptx
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)第4章 数据科学理论基础.pptx
- 北京中医药大学:《数据科学导论》课程教学资源(课件讲稿)大数据与卫生管理(主讲:李瑞锋).pdf
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)大数据概述(主讲:唐燕).ppt
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)数据科学视角下的中医药.pptx
- 北京中医药大学:《数据科学导论》课程教学资源(PPT课件)人工智能导论.pptx
- 北京中医药大学:《数据科学导论》课程教学资源(课件讲稿)自然语言处理入门(主讲:郭凤英).pdf
- 广州开放大学:《物业信息管理系统设计》考试试卷试题.docx
- 广州开放大学:《物业信息管理系统设计》考试试卷答案.docx
- 广州开放大学:《物业信息管理系统设计》测试1第一篇 智能建筑系统工程概述(试题).docx
- 广州开放大学:《物业信息管理系统设计》测试1第一篇 智能建筑系统工程概述(答案).docx
- 广州开放大学:《物业信息管理系统设计》测试1试卷试题.docx
- 广州开放大学:《物业信息管理系统设计》测试1试卷答案.docx
- 广州开放大学:《物业信息管理系统设计》测试2第二篇 智能建筑系统工程设计(试题).docx
- 广州开放大学:《物业信息管理系统设计》测试2第二篇 智能建筑系统工程设计(答案).docx
- 广州开放大学:《物业信息管理系统设计》测试2试卷试题.docx
- 广州开放大学:《物业信息管理系统设计》测试2试卷答案.docx
- 广州开放大学:《物业信息管理系统设计》测试3第三篇 智能化系统工程招投标(试题).docx
- 广州开放大学:《物业信息管理系统设计》测试3第三篇 智能化系统工程招投标(答案).docx