中国高校课件下载中心 》 教学资源 》 大学文库

《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第57讲 Mahout数据挖掘平台

文档信息
资源类别:文库
文档格式:PDF
文档页数:35
文件大小:4.54MB
团购合买:点击进入团购
内容简介
《高性能计算机网络》课程教学课件(讲义)第十章 大数据之Web典型应用 第57讲 Mahout数据挖掘平台
刷新页面文档预览

Mining of Massive Web Data第57讲Mahout数据挖掘平台更多资料:http://mahout.apache.org武汉理工大学计算机科学与技术学院

Mining of Massive Web Data 更多资料:h1p://mahout.apache.org ᦇᓒ๢ᑀ਍Өದ๞਍ᴺ ᒫ57ᦖ Mahoutහഝ೵യଘݣ

计算机科学写技术学院第23讲Mahout数据挖掘平台Mahout数据分析Mahout历史聚类举例武铺理工大学

ᒫ23ᦖ Mahoutහഝ೵യଘݣ Mahout ݥܲMahout 数据分析 聚类举例

计算机科学与技术学院MahoutMahout的中文含义:象夫,看象人Xff@mahoutapache.orgracheSmahoutDowicatTitorsBunT1Apache2.0licensedteceoboutedsttunedinberdnetiatytietnyApicheSotioittoonWhat is Apache Mahout?downloadmaheTheApacheMahoumachinelearinglibrarysgoalistobuidscalablemachinleamingibrarieLatistMhetlWilscaen se natMateut cmasty hasScalatie te ntasoxstly lags dita sats: Orr tane algeetep tet dietsrg- CanotimFarnsClandcatetmdbect hasidcolibestinfileirganppleaontdontopofApack-Usarand enhaneedincoreedeAboutHadon isng T,Ficyeanicate武铺理工大学

Mahout MahoutጱӾ෈ތԎғ᨝ॢ,看象人

计鲜机科学考技术学院数据金字塔MakingEndUserDecisionsDataPresentationsBusiness AnalystIncreasingpotentialVisualizationTechniquestosupportbusinessdecisionsData MiningDataAnalystInformationDiscoveryDataExplorationStatisticalAnalysis,Querying&ReportingDataWarehouses/DataMartsOn-LineAnalyticalProcessing (OLAP)DBAData SourcesPaper.Files,InformationProviders,DatabaseSystemspssmatket.a.blog.so3.com武铺理工大学

数据金字塔

计算机科学技术学院数据分析使用统计方法,有目的地对收集到的数据进行分析处理并且解读分析结果即平均数,mean=1/n*sum(X1:Xn)!-均值能够利用所有已知信息,但是对异常值(极小或极均值(mean)-大值)银敏感:华中排序后居于中间位置的数值,有序尺度常用!.趋势中位数(median)不能充分利用已知的所有变量信息,但不要异常值的影-指标-出现最频累的数值:代表分布中的高峰:众数(mode)名义尺度(分组数据)崇用最大值与最小值之差,rangemax-min:极差(range)直接受到异常值影响:变异离均差(观测值与均值之间的差)平方的均值:性指方孝(variance)-var=1/(n-1)*sum((Xi-mean)>2)数据分布越分散(远离均值),方差越大:标标推美-方差的平方根,stdevSQRT(var):与数据本身有相同的量纲,常用;standarddeviation刻画效据在均值质则候差趋势的差异性-对称分布:skewness=0,meanmedian=mode:偏度(skewness右偏分布:skewness>0,mean>median>mode!变异左偏分布:skewness3.分布曲线比正态分布起:.kurtosis<3,分布曲线比正态分布平锂:httpvpss-mmrketr.blo.163.coy武埔理工大学

使用统计方法,有目的地对收集到的数据进行分析处理, 并且解读分析结果. 数据分析

计算机科学考技术学院数据分析·常用算法数值预测器回日贝叶斯F路Logistcs国日别式步二元分类器序列时间序列QUESTC&R树CHAIDGRIAptioni特征选择C5.0神经网决策列装K-MeansKohonen异BLRMSVM主成分分析因子CenLinCoxCamaspss-mmrket.r.blog.163.com武铺理工大学

数据分析 • 常用算法

回归分析计算机科学马技术学院65985598a40a943011155160165170175155165160.17017555武铺理工大学

୭分析ࢧ

计算机科学与技术学院属性类别NO.气温风天气湿度热1晴高无风N晴热高N2有风分类器3热高多云无风P高雨适中P4无风冷5雨正常无风P冷6雨正常有风N冷7正常有风多云P高晴适中N8无风冷P9晴正常无风适中P10正常无风晴适中正常P11有风适中高P12多云有风热13多云正常无风P高雨适中有风N14武理工大学

NO. 属性 类别 天气 气温 湿度 风 1 晴 热 高 无风 N 2 晴 热 高 有风 N 3 多云 热 高 无风 P 4 雨 适中 高 无风 P 5 雨 冷 正常 无风 P 6 雨 冷 正常 有风 N 7 多云 冷 正常 有风 P 8 晴 适中 高 无风 N 9 晴 冷 正常 无风 P 10 雨 适中 正常 无风 P 11 晴 适中 正常 有风 P 12 多云 适中 高 有风 P 13 多云 热 正常 无风 P 14 雨 适中 高 有风 N ࢏ᔄړ

计算机科学技术学院天气决策树晴雨多云风湿度P高正常有风无风NPNP武铺理工大学

天 气 湿 度 风 晴 雨 多云 高 正常 有风 无风 P N P N P 决策树

计算机科学考技术学院聚类·聚类分析的定义·聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。·通常聚类算法可以分为以下几类:一划分式聚类算法一层次聚类算法一基于密度的聚类算法一基于网格的聚类算法基于模型的聚类算法2武铺理工大学

聚类 • 聚类分析的定义 • 聚类分析是将物理的或者抽象的数据集合划分为多个类别的过 程,聚类之后的每个类别中任意两个数据样本之间具有较高的 相似度,而不同类别的数据样本之间具有较低的相似度。 • 通常聚类算法可以分为以下几类: - 划分式聚类算法 - 层次聚类算法 - 基于密度的聚类算法 - 基于网格的聚类算法 - 基于模型的聚类算法

刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档