《多元统计分析》课程教学资源(课件讲稿)第一讲 多元统计分析简介

第一讲 多元统计分析简介
1 第一讲 多元统计分析简介

内容1.课程简介2.数据可视化3.超立方体4.超球体的体积、表面积5. 超球体上的均匀分布(以概率研究几何)符号约定:向量/随机向量:黑正体小写字母,X,0变量/随机变量:斜体小写字母,x,0矩阵:大写字母,X注意我们不以大小写区分随机变量和变量(即不以大写X表示随机变量,不以小写x表示其实现)
内容 1. 课程简介 2. 数据可视化 3. 超立方体 4. 超球体的体积、表面积 5. 超球体上的均匀分布(以概率研究几何) 2 符号约定: 向量/随机向量:黑正体小写字母,𝐱, 𝛉 变量/随机变量:斜体小写字母,𝑥, 𝜃 矩阵:大写字母,𝑋 注意我们不以大小写区分随机变量和变量(即不以大写𝑋 表示随机变量,不以小写𝑥表示其实现)

课程简介多变量微积分、线性代数、概率论、数理统计先修多元/向量多元统计分析(或多元分析)的主要研究对象是向量xERP(向量:多元、多维、多变量)R2R1RSR3(x1,x2)T(x,,xs)Tx(x1,X2,X3)T向量数据X..,XnERP按行排列组成n×p数据矩阵:数据矩阵(X11(xT)X1p:ERnxpX='.::-(xT)Xn1Xnp注意这里的X不是回归分析中的设计阵。一元线性回归模型一般认为不属于多元分析,这是因为主要研究对象响应变量是一元变量:如果响应是多元的(即多元线性回归)则属于多元分析。3
3 多元统计分析(或多元分析)的主要研究对象是向量𝐱 ∈ 𝑅 𝑝 (向量:多元、多维、多变量) 课程简介 多元/向量 先修 多变量微积分、线性代数、概率论、数理统计 𝑅 1 𝑅 2 𝑅 3 𝑅 5 𝑥 (𝑥1, 𝑥2) ⊤ (𝑥1, 𝑥2, 𝑥3) ⊤ (𝑥1, ⋯ , 𝑥5) ⊤ 向量数据 𝐱1, . . , 𝐱𝑛 ∈ 𝑅 数据矩阵 𝑝 按行排列组成 𝑛 × 𝑝数据矩阵: 𝑋 = 𝐱1 ⊤ ⋮ 𝐱𝑛 ⊤ = 𝑥11 ⋯ 𝑥1𝑝 ⋮ ⋱ ⋮ 𝑥𝑛1 ⋯ 𝑥𝑛𝑝 ∈ 𝑅 𝑛×𝑝 注意这里的𝑋不是回归分析中的设计阵。一元线性回归模型一般认 为不属于多元分析, 这是因为主要研究对象响应变量是一元变量; 如果响应是多元的(即多元线性回归)则属于多元分析

前半学期:Normal后半学期:Singular课程内容主要内容多元正态(normal奇异值分解(singularvaluedistribution),理解高维decomposition),统计学习主要工具多变量微积分线性代数参考书R.JohnsonandD.WichernM.Bilodeau,D.Brenner(1999)Theory of(2008)实用多元统计分析第6版,英文版中文版(8Multivariate Statistics12章)Springer(2-9章)大纲·球对称分布·多元正态··奇异值分解·主成分分析、卡方·高斯图模型·马氏双标图·因子分析·结构方随机场·Wishart分布程模型·对应分析·典则相·Hotelling'sT2检验·多元关分析·距离与相似系数方差分析MANOVA·多元配列·多维标度法·聚类·分类线性模型A
后半学期:Singular 奇异值分解(singular value decomposition), 统计学习 线性代数 R.Johnson and D.Wichern (2008) 实用多元统计分析, 第6版,英文版/中文版 (8- 12章) ⦁奇异值分解⦁主成分分析、 双标图 ⦁因子分析 ⦁结构方 程模型 ⦁对应分析 ⦁典则相 关分析 ⦁距离与相似系数 ⦁ 配列 ⦁多维标度法 ⦁聚类 ⦁分 类 4 课程内容 前半学期:Normal 主要内容 多元正态(normal distribution),理解高维 主要工具 多变量微积分 参考书 M.Bilodeau, D.Brenner (1999) Theory of Multivariate Statistics. Springer (2-9章) 大纲 ⦁球对称分布 ⦁多元正态 ⦁ 卡方 ⦁高斯图模型 ⦁马氏 随机场 ⦁Wishart分布 ⦁Hotelling’s T 2 检验 ⦁多元 方差分析MANOVA ⦁多元 线性模型

F.Husson, S.Le, J.Pages(2017) Exploratory Multivariate其它参AnalysisbyExampleUsingR.CRC(法)考书应用(250页),仅含主成分分析,对应分析。法国学派。我们只采用其中一或两个数据例子。T.W.Anderson (2003)An Introduction to MultivariateStatisticalAnalysis,Wiley,3rded(美,许宝的学生)理论、经典全面(700+页)、无实际例子,供查阅。K.V.Mardia,J.T.Kent,J.M.Bibby (1979,2024)MultivariateAnalysis,AcademicPress(英)理论、经典(400页)(无电子版)。RobbJ.Muirhead(2005)AspectsofMultivariateAuch(美)Statistical Theory, 2nd ed., Wiley理论,Jacobian,外微分。R. Horn, C. Johnson (2013) Matrix Analysis, 2nd edCambridge University Press.这些书目一般不需要翻看。当需要阅读参考书的某些章节时,我们会在课程主页“阅读材料”中指定。u
5 T.W.Anderson (2003) An Introduction to Multivariate Statistical Analysis, Wiley, 3rd ed(美,许宝騄的学生) 理论、经典(400页) (无电子版)。 理论、经典全面(700+页)、无实际例子,供查阅。 K.V.Mardia, J.T.Kent, J.M.Bibby (1979, 2024) Multivariate Analysis, Academic Press (英) 其它参 考书 F.Husson, S.Le, J.Pages(2017) Exploratory Multivariate Analysis by Example Using R. CRC(法) 应用(250页),仅含主成分分析,对应分析。法 国学派。我们只采用其中一或两个数据例子。 R. Horn, C. Johnson (2013) Matrix Analysis, 2nd ed. Cambridge University Press. Robb J. Muirhead (2005) Aspects of Multivariate Statistical Theory, 2nd ed., Wiley (美) 理论,Jacobian,外微分。 这些书目一般不需要翻看。当需要阅读参考书的某 些章节时,我们会在课程主页“阅读材料”中指定

数据可视化TheRGraphGallery(https://r-graph-gallery.com/)列举了常见的数据可视化工具:MValitDeraltRitpelrSranatTime Seietnepiotacked aesCorelationAwBubsConrwcied scatsDenity2dCrorsHeitbin mapCangianCaiscdloButbieRanikinPYTHONaVORDWerdodPiralelCrelarBaepidBsiplitSpidir/RadierLlpophorNaiwrSatoArs SagranCopeondnPant ofaiwholeGeneralknowledgeO站l国ggplot25niaciveCarveDatadonga6
6 数据可视化 The R Graph Gallery (https://r-graph-gallery.com/)列举了常见的数据可视化工具:

散点图:plot一元数据分布:直方图,盒型图,枝叶图散点图/实轴描点有助于了解一维数据的大小次序、间隔其至分布。比如数轴点“随机取10个点”通常指的是从均匀分布中产生10个随机数,其均匀性如何表现?下面产生10个[011区间上的均匀随机数!(0.389,0.583,0.095,0.853, 0.787,0.119, 0.606,0.081,0.391,0.619)0可以看到,均匀随机数并不是我们想象的那么”均匀”,数值之间的间隔(spacing)差别较大,容易出现聚簇(样本量较大时,每个局部都是如此)。简单情形:一个U(0,1)随机数将[0,1]区间划分成2段,较小一段的期望为1/4;两个U(0,1)随机数将[0,1]区间划分成3段,最小段的期望等于1/9,最小段长度小于0.1的概率大约为0.5
7 实轴描点有助于了解一维数据的大小次序、间隔甚至分布。比如, “随机取10个点”通常指的是从均匀分布中产生10个随机数, 其 均匀性如何表现?下面产生10个[0,1]区间上的均匀随机数: 散点图/ 数轴点 x=(0.389, 0.583, 0.095, 0.853, 0.787, 0.119, 0.606, 0.081, 0.391, 0.619) 可以看到,均匀随机数并不是我们想象的那么”均匀”,数值之 间的间隔(spacing) 差别较大,容易出现聚簇(样本量较大时, 每个局部都是如此)。 简单情形: • 一个𝑈 0,1 随机数将[0,1]区间划分成2段,较小一段的期望为1/4; • 两个𝑈 0,1 随机数将[0,1]区间划分成3段,最小段的期望等于1/9, 最小段长度小于0.1的概率大约为0.5 • 散点图:plot 一元数据 • 分布:直方图 ,盒型图 ,枝叶图

般结果:假设x1,,xnid~U(o,1),从小到大排列记为次序统计量Spacing/间隔x(1)≤≤x(n),间隔spacing定义为:d;= x(i) - x(i-1),i = 1, ,n + 1, 其中x(o) = 0, x(n+1) =1,已知事实:1间隔期望相同:E(di)=n+1次序统计量服从{(t1,,tn):0≤ti≤≤tn≤1)上的均匀分布d1,,dn+1服从均匀分布U(A),△={(d1,..,dn+1):di;≥O, di +... + dn+i= 1}。问题:. P(min(di) < t) =?. E(min(di)) = 1/(n + 1)2 ?8
8 一般结果: 假设 𝑥1, . , 𝑥𝑛 𝑖𝑖𝑑 ~𝑈 0,1 ,从小到大排列记为次序统计量 𝑥(1) ≤ ⋯ ≤ 𝑥(𝑛) , 间隔spacing定义为: 𝑑𝑖= 𝑥(𝑖) − 𝑥 𝑖−1 , 𝑖 = 1, . , 𝑛 + 1, 其中𝑥(0) = 0, 𝑥(𝑛+1) =1, 问题: • P min 𝑑𝑖 < 𝑡 =? • 𝐸 min 𝑑𝑖 = 1/(𝑛 + 1) 2 ? 已知事实: • 间隔期望相同: 𝐸 𝑑𝑖 = 1 𝑛+1 • 次序统计量服从{ (𝑡1, . ,𝑡𝑛 ):0 ≤ 𝑡1 ≤ ⋯ ≤ 𝑡𝑛 ≤ 1}上的均匀分布。 • 𝑑1, . , 𝑑𝑛+1 服从均匀分布𝑈(Δ), Δ = { 𝑑1, . , 𝑑𝑛+1 : 𝑑𝑖≥ 0, 𝑑1+ ⋯ + 𝑑𝑛+1= 1}。 Spacing/ 间隔

> boxplot(x) :分布Interquantilerange(度量分散程度):0.6175IQR=75%分位数一25%分位数IQR0.61750.18750.1875>hist(x, prob=T) :> stem(x)Thedecimal point is 1 digit(s)to the leftof the0|89221994186|1298/5o0.00.20.4 0.60.89
9 > boxplot(x) : > hist(x,prob=T) : IQR Interquantile range (度量分散程度): IQR=75%分位数−25%分位数 =0.6175 − 0.1875 分布 0.6175 0.1875 > stem(x)

二元散点图:plot二元数据二元分布:image,persp,contour散点图(scatterplot)是最基本、也是最重要的数据展示方法。散点图例1.纸张的强度在机器制造方向(MD:machinedirection)和与之垂直的方向(CD:crossdirection)有所不同,课本Tablel.2(数据集:paper)提供了41张纸张的三项指标:x-StrengthMD,y=StrengthCD,z-Density(密度)。两个strength正相关数据聚簇为两类透视图(perspective)、热图(heatmap)、等高线二元分布图(contour)刻画二元数据(x,y)的分布:persp()image(),contour()##kde2d估计概率密度library(MASS)k<-kde2d(paperl,2],paperl,3),n=25)#n:x,y轴划分区间的个数#二维变量的密度函数(左)和概率密度的热图、等高线图:persp(k,xlab="x",ylab="y",zlab="Prob.density",theta=30)image(k,xlab="Strength_MD",ylab="Strength_CD")10contour(k,add=TRUE,drawlabels =FALSE,nlevels=6)
10 散点图 散点图(scatter plot)是最基本、也是最重要的数据展示方法。 例1. 纸张的强度在机器制造方向(MD:machine direction) 和与之垂直的方向(CD:cross direction)有所不同,课 本Table1.2(数据集:paper )提供了41张纸张的三项指标: x=Strength_MD, y=Strength_CD, z=Density (密度)。 两个strength正相 关数据聚簇为两类 • 二元散点图: plot 二元数据 • 二元分布:image, persp, contour 二元分布 透视图(perspective)、热图(heat map)、等高线 图(contour)刻画二元数据(x,y)的分布: persp() image(), contour() ## kde2d估计概率密度 library(MASS) k <- kde2d(paper[,2],paper[,3], n=25) #n: x,y轴划分区间的个数 #二维变量的密度函数(左)和概率密度的热图、等高线图: persp(k, xlab="x", ylab="y",zlab="Prob. density",theta=30 ) image(k, xlab="Strength_MD", ylab="Strength_CD" ) contour(k, add = TRUE, drawlabels = FALSE,nlevels=6)
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《多元统计分析》课程教学资源(书籍文献)Johnson and Wichern(2008)实用多元统计分析,第6版,清华大学出版社(中文版).pdf
- 《多元统计分析》课程教学资源(书籍文献,矩阵论)王松桂等(2004)线性模型引论,科学出版社.pdf
- 《多元统计分析》课程教学资源(书籍文献,矩阵论)R.A. Horn, C.R. Johnson(2013)Matrix analysis, 2nd ed. Cambridge University Press.pdf
- 《多元统计分析》课程教学资源(书籍文献,多元分析)Robb J. Muirhead(2005)Aspects of Multivariate Statistical Theory, Wiley.pdf
- 《多元统计分析》课程教学资源(书籍文献,多元分析)F.Husson, S.Le, J.Pages(2017)Exploratory Multivariate Analysis by Example Using R. CRC.pdf
- 《多元统计分析》课程教学资源(书籍文献)Johnson and Wichern(2008)实用多元统计分析,Applied Multivariate Statistical Analysis,第6版SIXTH EDITION(英文版).pdf
- 《多元统计分析》课程教学资源(书籍文献)M.Bilodeau, D.Brenner(1999)Theory of Multivariate Statistics,Springer.pdf
- 西南石油大学:《概率统计》课程教学大纲 Probability and Statistics(Ⅰ).pdf
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)01 计量经济学概论(主讲:张晓峒).pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)10 模型的诊断与检验.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)13 非平稳经济变量与协整.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)11 时间序列模型.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)09 联立方程模型.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)08 模型中的特殊解释变量.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)06 自相关.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)05 异方差.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)07 多重共线性.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)04 非线性回归模型的线性化.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)03 多元线性回归模型.pptx
- 南开大学:《计量经济学基础》课程教学课件(PPT讲稿)02 一元线性回归模型.pptx
- 《多元统计分析》课程教学资源(课件讲稿)第二讲 球对称分布(1/2).pdf
- 《多元统计分析》课程教学资源(课件讲稿)第三讲 球对称分布(2/2).pdf
- 《多元统计分析》课程教学资源(课件讲稿)第四讲 多元正态分布(多元生成分布、椭球分布、多元正态分布).pdf
- 《多元统计分析》课程教学资源(课件讲稿)第五讲 高斯图模型.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第六讲 Wishart分布(1/3).pdf
- 《多元统计分析》课程教学资源(课件讲稿)第七讲 Wishart分布(2/3).pdf
- 《多元统计分析》课程教学资源(课件讲稿)第八讲 Wishart分布(3/3).pdf
- 《多元统计分析》课程教学资源(课件讲稿)第九讲 Hotelling’s T2检验.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十讲 多元线性模型.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十一讲 主成分分析.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十二讲 双标图biplot.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十三讲 因子分析.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十四讲 结构方程模型.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十五讲 奇异值分解.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十六讲 典则相关分析CCA.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十七讲 列联表与对应分析.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十八讲 距离和相似系数.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第十九讲 多维标度法.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第二十讲 聚类分析.pdf
- 《多元统计分析》课程教学资源(课件讲稿)第二十一讲 分类预测.pdf
