《应用回归分析》课程教学资源(PPT课件讲稿)第7章 岭回归

第7章岭回归 71岭回归估计的定义 72岭回归估计的性质 73岭迹分析 74岭参数的选择 7.5用岭回归选择变量 76本章小结与评注
第7章 岭回归 7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数k的选择 7.5 用岭回归选择变量 7.6 本章小结与评注

§7.1岭回归估计的定义 、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就 很大,估计值就很不稳定,下面进一步用一个模拟的例 子来说明这一点。 例7.1假设已知x1,x2与y的关系服从线性回归模型 10+2x1+3x2+E
§7.1 岭回归估计的定义 一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就 很大, 估计值就很不稳定,下面进一步用一个模拟的例 例7.1 假设已知x1,x2与y y=10+2x1+3x2+ε

§7.1岭回归估计的定义 给定x,x的10个值,如下表7.1的第(2)、(3)两行: 表71 序号12345678910 (1) 1.11.41.71.71.81.81.92.02.32.4 (2) 1.11.51.81.71.91.81.82.12.42.5 (3)10.8-0.5040.50.21.91.90.6-1.51.5 (4)y116.316.819.218.019.52092120.90.3.0
§7.1 岭回归估计的定义 给定x1,x2的10个值,如下表7.1的第(2)、(3)两行: 表7.1 序号 1 2 3 4 5 6 7 8 9 10 (1) x1 1.1 1.4 1.7 1.7 1.8 1.8 1.9 2.0 2.3 2.4 (2) x2 1.1 1.5 1.8 1.7 1.9 1.8 1.8 2.1 2.4 2.5 (3) εi 0.8 -0.5 0.4 -0.5 0.2 1.9 1.9 0.6 -1.5 -1.5 (4) yi 16.3 16.8 19.2 18.0 19.5 20.9 21.1 20.9 20.3 22.0

§7.1岭回归估计的定义 现在我们假设回归系数与误差项是未知的,用普通最小二乘法 求回归系数的估计值得: β=1l292,β1=1.307,β2=6.591 而原模型的参数 βa=10,B1-2,B2=3 看来相差太大。计算x,ⅹ的样本相关系数得rz=0.986,表明 x1与x之间高度相关
§7.1 岭回归估计的定义 现在我们假设回归系数与误差项是未知的,用普通最小二乘法 求回归系数的估计值得: 0 ˆ =11.292, 1 ˆ =11.307, 2 ˆ =-6.591 β0=10,β1=2,β2=3 看来相差太大。计算x1,x2的样本相关系数得r12=0.986,表明 x1与x2之间高度相关

§7.1岭回归估计的定义 岭回归的定义 岭回归( Ridge Regression.,简记为RR提出的想法是很 自然的。 当自变量间存在复共线性时,|XX|≈0, 我们设想给XX加上一个正常数矩阵kI,(k>0), 那么XX+k接近奇异的程度就会比XX接近奇异的程度 小得多。 考虑到变量的量纲问题,我们先对数据做标准化 为了记号方便,标准化后的设计阵仍然用X表示
§7.1 岭回归估计的定义 二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很 自然的。 当自变量间存在复共线性时,|X′X|≈0, 我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异的程度就会比X′X接近奇异的程度 小得多。 考虑到变量的量纲问题,我们先对数据做标准化, 为了记号方便,标准化后的设计阵仍然用X表示

§7.1岭回归估计的定义 我们称Bx)=(XX+kI)xy(72) 为β的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相 关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以 未经标准化 显然,岭回归做为β的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计
§7.1 岭回归估计的定义 我们称 β = XX + I Xy -1 (k) ( k ) ˆ 为β的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以X′X就是自变量样本相 关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以 未经标准化。 显然,岭回归做为β的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计。 (7.2)

§7.1岭回归估计的定义 因为岭参数k不是唯一确定的,所以我们得到的岭回归估计β(k) 实际是回归参数β的一个估计族。 例如对例71可以算得不同k值时的β1Q),B2(k),见表72 表72 0 0.10.150.20.30.40.51.01.52 B()1.313.482.92.712.392.202.061.661.431.271.03 62()6.590.631.02.211.391.461.491.411.281.17|0.98
§7.1 岭回归估计的定义 因为岭参数k不是唯一确定的,所以我们得到的岭回归估计 β(k) ˆ 实际是回归参数β的一个估计族。 例如对例7.1可以算得不同k值时的β1 (k) ˆ ,β(k) 2 ˆ ,见表7.2 k 0 0.1 0.15 0.2 0.3 0.4 0.5 1.0 1.5 2 3 β1 (k) ˆ 11.31 3.48 2.99 2.71 2.39 2.20 2.06 1.66 1.43 1.27 1.03 β2 (k) ˆ -6.59 0.63 1.02 1.21 1.39 1.46 1.49 1.41 1.28 1.17 0.98 表7.2

§7.1岭回归估计的定义 1(k) 2(k) 2345 图7.1
§7.1 岭回归估计的定义

§7,2岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。 性质1Bk)是回归参数β的有偏估计 证明:E[B(k)]E[X′X+kI)x′y (XX+kI)X′E(y) (X′X+kI)X′X 显然只有当k=0时,互(O)}B;当k≠0时,B(k)是β的有偏估计 要特别强调的是β(k)不再是β的无偏估计了, 有偏性是岭回归估计的一个重要特性
§7.2 岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。 性质1 β(k) ˆ 是回归参数β 证明: E[β(k) ˆ ]=E[(X′X+kI) -1 X′y] =(X′X+kI) -1 X′E(y) =(X′X+kI) -1 X′X 显然只有当k=0时,E[ β(0) ˆ ]=β;当k≠0时, β(k) ˆ 是β的有偏估计。 要特别强调的是β(k) ˆ 不再是β的无偏估计了, 有偏性是岭回归估计的一个重要特性

§7,2岭回归估计的性质 性质2在认为岭参数k是与y无关的常数时,β(k)=(XX+kI)xy 是最小二乘估计β的一个线性变换,也是y的线性函数。 因为B(k)=(XX+kI)xy=(xX+kI)xX(xX)xy -(X'X+kI)X'XB 因此,岭估计β(k)是最小二乘估计β的一个线性变换, 根据定义式(k)=(X"x+kI)Xy知B(k)也是y的线性函数 这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来 确定,因而k也依赖于y,因此从本质上说β(k)并非β的线性变换,也不是 y的线性函数
§7.2 岭回归估计的性质 性质2 在认为岭参数k是与y 无关的常数时,β = XX + I Xy -1 (k) ( k ) ˆ 是最小二乘估计β ˆ 的一个线性变换,也是y 因为 β = XX + I Xy -1 (k) ( k ) ˆ = XX + I XX XX Xy -1 -1 ( k ) ( ) = X X I X Xβ ˆ + -1 ( k ) 因此,岭估计β(k) ˆ 是最小二乘估计β ˆ 的一个线性变换, 根据定义式β = XX + I Xy -1 (k) ( k ) ˆ 知β(k) ˆ 也是y 这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来 确定,因而k也依赖于y,因此从本质上说β(k) ˆ 并非β ˆ 的线性变换,也不是 y 的线性函数
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《概率论与数理统计》课程教学资源(PPT课件讲稿)第八章 假设检验.ppt
- 《房地产金融》课程教学资源(PPT课件讲稿)第四章 个人住房贷款.ppt
- 中国人民大学:《统计学》课程PPT教学课件(第三版)第4章 概率与概率分布(作者:贾俊平).ppt
- 华中科技大学:《多元统计分析》课程教学资源(PPT课件讲稿)社会统计学导论.ppt
- 《医学统计学》课程教学资源(PPT课件)第十九章 统计表和统计图.ppt
- 《医学统计学》课程教学资源(PPT课件讲稿)方差分析、假设检验时应注意的事项.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第一章 基础统计学回顾.ppt
- 《医学统计学》课程教学资源(PPT课件讲稿)第十三章 医学统计学方法的基本概念和基本步骤、常用统计分析软件简介.ppt
- 《统计学》课程教学资源(PPT课件)项目十 相关与回归分析——相关关系的测定及回归模型的建立.ppt
- 北京师范大学:《社会科学统计软件及应用》教学资源(PPT课件讲稿)第9讲 降维分析与分类分析(归因分析).ppsx
- 《统计学》课程教学资源(PPT课件)第四章 集中趋势和离中趋势.ppt
- 北京师范大学:《社会科学统计软件及应用》教学资源(PPT课件讲稿)第7讲 数据的关联性分析(主讲:马秀麟).ppsx
- 《市场调查与预测 Marketing Research》课程教学资源(PPT课件讲稿)第七章 调查数据的分析.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第十章 双样本假设检验及区间估计.ppt
- 上海财经大学:《公共选择与政治立宪》课程教学资源(PPT课件讲稿)第七讲 其它多数规则.ppt
- 清华大学出版社:《统计学原理与实务》课程教学资源(PPT课件讲稿,共十章,主编:卜晓玲、李洁).ppt
- 《统计学》课程教学资源(PPT讲稿)潜变量的效应分析与循环效应及应用论文写作.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第十七章 分类资料的统计推断.ppt
- 《预测与时间序列》教学资源(PPT讲稿)Non-Seasonal Box-Jenkins Models(Four-step iterative procedures).ppt
- 东南大学:《统计学》课程教学资源(PPT课件)第十章 回归与相关 CORRELATION & REGRESSION.ppt
- 《社会统计分析方法》课程PPT教学课件(SPSS软件应用)第五章 因子分析.ppt
- 《数理统计》课程PPT教学课件(统计推断)统计量与抽样分布.pptx
- 《应用概率统计》课程教学资源(PPT课件讲稿)第1章 事件与概率.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第十一章 线性相关与回归.ppt
- 《应用回归分析》课程教学资源(PPT课件讲稿)第6章 多重共线性的情形及其处理.ppt
- 《统计学》课程教学资源(PPT课件讲稿)第五章 抽样调查.ppt
- 《计量经济学》课程教学资源(PPT课件讲稿)数据的来源.ppt
- 中国人民大学:《统计学》课程PPT教学课件(第三版)第13章 非参数检验.ppt
- 《社会统计学》课程教学资源(PPT课件讲稿)第十三章 卡方检验与方差分析.ppt
- 中国人民大学:《统计学》课程PPT教学课件(第三版)第12章 聚类分析.ppt
- 《统计学》课程电子教案(PPT教学课件)第十一章 指数.ppt
- 北京师范大学:《社会科学统计软件及应用》教学资源(PPT课件讲稿)第8讲 管理信息系统的实务.ppsx
- 《统计学》课程PPT教学课件(讲稿)项目五 统计基本分析指标(1)总量指标和相对指标.ppt
- 《社会统计分析方法》课程PPT教学课件(SPSS软件应用)第二章 多元线性回归 multiple linear regression.ppt
- 《概率与统计》课程教学资源(PPT课件讲稿)正态总体的参数检验.ppt
- 《医学统计学》课程教学资源(PPT课件讲稿)第十二章 医学人口和疾病统计 第一节 医学人口统计常用指标.ppt
- 《统计学》课程电子教案(PPT教学课件)第三章 数据整理.ppt
- 《统计学》课程教学资源(PPT课件讲稿)统计学电子教案(共八章).ppt
- 《统计学》课程电子教案(PPT教学课件)第十六章 统计表和统计图.pps
- 《时间序列分析》课程教学资源(PPT课件讲稿)第四章 非平稳序列的确定性分析.ppt