《计量经济学》课程授课教案（讲稿）08 多重共线性

文档信息

资源类别：文库
文档格式：PDF
文档页数：13
文件大小：261.1KB
团购合买：点击进入团购

内容简介

多重共线性“多重共线性”一词由R.Frisch1934年提出，它原指模型的解释变量间存在线性关系。1.非多重共线性假定rk(X'X)=rk (X)= k解释变量不是完全线性相关的或接近完全线性相关的。[rxg|1，1rxx|不近似等于1。就模型中解释变量的关系而言，有三种可能。（1）rxix=0，解释变量间非线性相关，变量间相互正交。这时已不需要多重回归，每个参数β都可以通过y对x的一元回归来估计。（2）1rxx|=1，解释变量间完全共线性。此时模型参数将无法确定。直观地看，当两变量按同一方式变化时，要区别每个解释变量对被解释变量的影响程度就非常困难。（3）0<|rxixl<1，解释变量间存在一定程度的线性相关。实际中常遇到的是这种情形。随着共线性程度的加强，对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性，而是多重共线性的程度。2.多重共线性的经济解释（1）经济变量在时间上有共同变化的趋势。如在经济上升时期，收入、消费、就业率等都增长，当经济收缩期，收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。4.E+114.E+11GDP-.CONSGDPof HongKongW3.E+11 3.E+112.E+11..2.E+111.E+111.E+11*7CONS0.E+000.E+008082848688909294969800020.0E+005.0E+101.0E+111.5E+112.0E+112.5E+1（2）解释变量与其滞后变量同作解释变量。4.E+114.E+11GDPGDPMw.r3.E+113.E+11..:.n2.E+11.2.E+11..A1.E+111.E+11wets'GDP(-1)0.E+000.E+008082848688909294969800021.E+113.E+110.E+002.E+114.E+13.多重共线性的后果（1）当Irxx/=1，X为降秩矩阵，则(X'X)"不存在，β=(X'X)"X'Y不可计算。1

多重共线性 “多重共线性”一词由 R. Frisch 1934 年提出，它原指模型的解释变量间存在线性关系。 1．非多重共线性假定 rk (X 'X ) = rk (X ) = k 解释变量不是完全线性相关的或接近完全线性相关的。 | rxi xj | ≠1, | rxi xj | 不近似等于 1。就模型中解释变量的关系而言，有三种可能。（1）rxi xj = 0，解释变量间非线性相关，变量间相互正交。这时已不需要多重回归，每个参数βj 都可以通过 y 对 xj 的一元回归来估计。（2）| rxi xj | = 1，解释变量间完全共线性。此时模型参数将无法确定。直观地看，当两变量按同一方式变化时，要区别每个解释变量对被解释变量的影响程度就非常困难。（3）0 < | rxi xj | < 1，解释变量间存在一定程度的线性相关。实际中常遇到的是这种情形。随着共线性程度的加强，对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性，而是多重共线性的程度。 2．多重共线性的经济解释（1）经济变量在时间上有共同变化的趋势。如在经济上升时期，收入、消费、就业率等都增长，当经济收缩期，收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 80 82 84 86 88 90 92 94 96 98 00 02 GDP CONS 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 0.0E+005.0E+101.0E+111.5E+112.0E+112.5E+1 CONS GDP of HongKong （2）解释变量与其滞后变量同作解释变量。 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 80 82 84 86 88 90 92 94 96 98 00 02 GDP 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 0.E+00 1.E+11 2.E+11 3.E+11 4.E+11 GDP(-1) GDP 3．多重共线性的后果（1）当 | rxi xj | = 1，X 为降秩矩阵，则 (X 'X) -1 不存在， β ˆ = (X 'X) -1 X 'Y 不可计算。 1

（2）若「rxx|+1，即使|rxx|→1，β仍具有无偏性。E(β)=E[(X'X)'x'Y]=E[(X'X)-x(Xβ + u))=β +(X'X)'xE(u)= β（3）当|rxix|→1时，X"X接近降秩矩阵，即/XX|→0，Var(β）=α(X"X)"变得很大。所以β丧失有效性。以二解释变量线性模型为例，当rxix=0.8时，Var(β)为rxix=0时的Var(β）的2.78倍。当rxix=0.95时，Var(β）为rxig=0时的Var(β）的10.26倍。4.多重共线性的检验（1）初步观察。当模型的拟合优度（R2）很高，F值很高，而每个回归参数估计值的方差Var(B）又非常大（即1值很低）时，说明解释变量间可能存在多重共线性。（2）Klein判别法。计算多重可决系数R及解释变量间的简单相关系数rxij°若有某个Irx|>R2，则xi，x,间的多重共线性是有害的。（3）回归参数估计值的符号如果不符合经济理论，模型有可能存在多重共线性。（4）增加或减少解释变量个数时，回归参数估计值变化很大，说明模型有可能存在多重共线性。（5）此外还有其他一些检验方法，如主成分分析法等，很复杂。5.多重共线性的克服方法5.1直接合并解释变量当模型中存在多重共线性时，在不失去实际意义的前提下，可以把有关的解释变量直接合并，从而降低或消除多重共线性。如果研究的目的是预测全国货运量，那么可以把重工业总产值和轻工业总产值合并为工业总产值，从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并，变为工农业总产值。解释变量变成了一个，自然消除了多重共线性。5.2利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解，对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型(7.20)y=Bo+Bix+Bx+ux与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究，能给出回归系数β与β的某种关系，例如β=βi(7.21)其中入为常数。把上式代入模型（7.20），得(7,22)y=Bo+βix +BiX+u=Bo+B(x+x2)+ u令X,=X+1x得(7.23)i=B+βx+u模型（7.23）是一元线性回归模型，所以不再有多重共线性问题。用普通最小二乘法估计模型（7.23），得到B，然后再利用（7.21）式求出β,。下面以道格拉斯（Douglass）生产函数为例，做进一步说明。Y,=KLaCPe"(7.24)其中Y，表示产出量，L表示劳动力投入量，C表示资本投入量。两侧取自然对数后，(7.25)LnY,=LnK,+ αLnL, + βLnC,+u2

（2）若 | rxi xj | ≠1，即使 | rxi xj | →1，仍具有无偏性。 β ˆ E( β ) = E[(X 'X) -1 X ' Y ] = E[(X 'X) -1X ' (Xβ + u)] = β + (X 'X) -1X ' E(u) = β. ˆ （3）当 | rxi xj | →1 时，X 'X 接近降秩矩阵，即 | X 'X | →0，Var( ) = σ 2 (X 'X) -1 变得很大。所以丧失有效性。以二解释变量线性模型为例，当 rxi xj = 0.8 时，Var( )为 rxi xj = 0 时的 Var( )的 2.78 倍。当 rxi xj = 0.95 时，Var( )为 rxi xj = 0 时的 Var( )的 10.26 倍。 β ˆ β ˆ β ˆ β ˆ β ˆ β ˆ 4．多重共线性的检验（1）初步观察。当模型的拟合优度（R 2 ）很高，F 值很高，而每个回归参数估计值的方差 Var(βj) 又非常大（即 t 值很低）时，说明解释变量间可能存在多重共线性。（2）Klein 判别法。计算多重可决系数 R2 及解释变量间的简单相关系数 rxi xj。若有某个 | rxi xj | > R2 ，则 xi，xj 间的多重共线性是有害的。（3）回归参数估计值的符号如果不符合经济理论，模型有可能存在多重共线性。（4）增加或减少解释变量个数时，回归参数估计值变化很大，说明模型有可能存在多重共线性。（5）此外还有其他一些检验方法，如主成分分析法等，很复杂。 5．多重共线性的克服方法 5.1 直接合并解释变量当模型中存在多重共线性时，在不失去实际意义的前提下，可以把有关的解释变量直接合并，从而降低或消除多重共线性。如果研究的目的是预测全国货运量，那么可以把重工业总产值和轻工业总产值合并为工业总产值，从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并，变为工农业总产值。解释变量变成了一个，自然消除了多重共线性。 5.2 利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解，对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型 yt = β0+ β1 xt1 + β2 xt2 + ut (7.20) x1 与 x2 间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究，能给出回归系数β1 与β2的某种关系，例如 β2 = λβ1 (7.21) 其中 λ 为常数。把上式代入模型（7.20），得 yt = β0+ β1 xt1 + λβ1 xt2 + ut = β0 + β1 (xt1 + λ xt2) + ut (7.22) 令 xt = xt1 + λ xt2 得 yt = β0+ β1 xt + ut (7.23) 模型（7.23）是一元线性回归模型，所以不再有多重共线性问题。用普通最小二乘法估计模型（7.23），得到，然后再利用（ β ˆ 1 7.21）式求出。2 ˆ β 下面以道格拉斯（Douglass）生产函数为例，做进一步说明。 Yt = K Lt α Ct β e ut (7.24) 其中 Yt 表示产出量，Lt 表示劳动力投入量，Ct表示资本投入量。两侧取自然对数后， LnYt = LnKt + αLnLt + βLnCt + ut (7.25) 2

因为劳动力（L）与资本（C）常常是高度相关的，所以LnL与LnC,也高度相关，致使无法求出α，的精确估计值。假如已知所研究的对象属于规模报酬不变型，即得到一个条件α+β= 1利用这一关系把模型（7.25）变为LnY,= LnK, + α LnL,+(1- α) LnC,+ u整理后，Y(L)+uLn()=Ln K,+αLn((7.26)CtCt变成了Ln(Y,IC）对Ln(L,/C）的一元线性回归模型，自然消除了多重共线性。估计出α后，再利用关系式α+β=1，估计β。5.3增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时，克服了测量误差，自然也消除了多重共线性。另外，增加样本容量也可以减弱多重共线性的程度。5.4合并截面数据与时间序列数据这种方法属于约束最小二乘法（RLS）。其基本思想是，先由截面数据求出一个或多个回归系数的估计值，再把它们代入原模型中，通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量，然后建立新因变量对那些保留解释变量的回归模型，并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。设有某种商品的销售量Y，模型如下，Ln Y,=βo+βLnP,+βLnI,+ut(7.29)其中Y，表示销售量，P，表示平均价格，I表示消费者收入，下标t表示时间。在时间序列数据中，价格P，与收入I，一般高度相关，所以当用普通最小二乘法估计模型（7.29）的回归系数时，会遇到多重共线性问题。首先利用截面数据估计收入弹性系数β。因为在截面数据中，平均价格是一个常量，所以不存在对β的估计问题。把用截面数据得到的收入弹性系数估计值β，代入原模型（7.29）。得LnY,= βo+ β Ln P, + β, Ln I,+ u移项整理LnY- β, Ln I,= β+ βr LnP, + u变换后的因变量（LnY,-β,Lnl）用Z表示，则Z,= β+ β LnP,+ ut(7.30)这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型（7.30）作普通最小二乘（OLS）估计，求出β，β。这样便求到相对于模型（7.29）的估计式，Lny,=Bo+β, Ln P,+B, Ln I其中β,是用截面数据估计的，βo，β是由时间序列数据估计的。由于把估计过程分作两步，从而避免了多重共线性问题。显然这种估计方法默认了一种假设，即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的β相同。当这种假设不成立时，这种估计方法会带来估计误差。3

因为劳动力（Lt）与资本（Ct）常常是高度相关的，所以 LnLt 与 LnCt 也高度相关，致使无法求出α，β的精确估计值。假如已知所研究的对象属于规模报酬不变型，即得到一个条件 α + β = 1 利用这一关系把模型（7.25）变为 LnYt = LnKt + α LnLt + (1- α) LnCt + ut 整理后， Ln ( t t C Y ) = Ln Kt + α Ln ( t t C L ) + ut (7.26) 变成了 Ln (Yt /Ct) 对 Ln (Lt /Ct) 的一元线性回归模型，自然消除了多重共线性。估计出α后，再利用关系式α + β = 1，估计β。 5.3 增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时，克服了测量误差，自然也消除了多重共线性。另外，增加样本容量也可以减弱多重共线性的程度。 5.4 合并截面数据与时间序列数据这种方法属于约束最小二乘法（RLS）。其基本思想是，先由截面数据求出一个或多个回归系数的估计值，再把它们代入原模型中，通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量，然后建立新因变量对那些保留解释变量的回归模型，并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法。设有某种商品的销售量 Yt 模型如下， Ln Yt = β0+ β1 Ln Pt + β2 Ln It + ut (7.29) 其中 Yt 表示销售量，Pt表示平均价格，It 表示消费者收入，下标 t 表示时间。在时间序列数据中，价格 Pt 与收入 It 一般高度相关，所以当用普通最小二乘法估计模型（7.29）的回归系数时，会遇到多重共线性问题。首先利用截面数据估计收入弹性系数β2。因为在截面数据中，平均价格是一个常量，所以不存在对β1 的估计问题。把用截面数据得到的收入弹性系数估计值代入原模型（ β ˆ 2 7.29）。得 LnYt = β0+ β1 Ln Pt + 2 Ln It + ut ˆ β 移项整理 LnYt - Ln It = β0+ β1 LnPt 2 + ut ˆ β 变换后的因变量（LnYt - β ˆ 2 Ln It）用 Zt表示，则 Zt = β0+ β1 LnPt + ut (7.30) 这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型（7.30）作普通最小二乘（OLS）估计，求出 , 。这样便求到相对于模型（7.29）的估计式， 0 ˆ β 1 ˆ β = + Ln Pt + Ln It ∧ LnYt 0 ˆ β 1 ˆ β 2 ˆ β 其中是用截面数据估计的， β ˆ 2 β ˆ 0 , β ˆ 1 是由时间序列数据估计的。由于把估计过程分作两步，从而避免了多重共线性问题。显然这种估计方法默认了一种假设，即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的相同。当这种假设不成立时，这种估计方法会带来估计误差。 2 ˆ β 3

5.5逐步回归法（1）用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。（2）以对被解释变量贡献最大的解释变量所对应的回归方程为基础，按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。①若新变量的引入改进了R?，且回归参数的1检验在统计上也是显著的，则该变量在模型中予以保留。②若新变量的引入未能改进R，且对其他回归参数估计值的1检验也未带来什么影响，则认为该变量是多余的，应该舍弃。③若新变量的引入未能改进R，且显著地影响了其他回归参数估计值的符号与数值，同时本身的回归参数也通不过1检验，这说明出现了严重的多重共线性。舍弃该变量。案例1：关于中国电信业务总量的计量经济模型（file:coline2）经初步分析，认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型如下，Ln y= 24.94 + 2.16 xi 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 xs(0.7)(1.6)(-0.8)(1.0)(1.5)(-1.2)R =0.9944, F=106.3, DW= 3.4, T=9, (1991-1999),to.05(3)=3.18,R=0.99，而每个回归参数的1检验在统计上都不显著，这说明模型中存在严重的多重共线性。Dependent Variable:LOG(Y)Method: Least SquaresDate:04/18/04Time:07:58Sample:19911999Includedobservations:9VariableCoeficientStd.Errort-StatisticProb.c0.562924.9366038.452070.648511X12.1636311.3523221.5999380.2079X2-3.0345513.986712-0.7611660.5019X30.381433.7133332.939431.023495X40.22001.2888600.8340691.545267X5-2.0271911.664341-1.2180140.31030.9943852.013502R-squaredMean dependent varAdjusted R-squared0.985027S.D. dependent var1.018022-1.093179S.E.of regression0.124570Akaikeinfocriterion0.046553-0.961696Sum squared residSchwarz criterion10.91930F-statistic106.2583Log likelihoodDurbin-Watson stat3.408677Prob(F-statistic)0.0014214

5.5 逐步回归法（1）用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。（2）以对被解释变量贡献最大的解释变量所对应的回归方程为基础，按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现 3 种情形。①若新变量的引入改进了 R2 ，且回归参数的 t 检验在统计上也是显著的，则该变量在模型中予以保留。②若新变量的引入未能改进 R2 ，且对其他回归参数估计值的 t 检验也未带来什么影响，则认为该变量是多余的，应该舍弃。③若新变量的引入未能改进 R2 ，且显著地影响了其他回归参数估计值的符号与数值，同时本身的回归参数也通不过 t 检验，这说明出现了严重的多重共线性。舍弃该变量。案例 1：关于中国电信业务总量的计量经济模型（file:coline2）经初步分析，认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均 GDP、全国居民人均消费水平。用 1991-1999 年数据建立中国电信业务总量计量经济模型如下， Ln y = 24.94 + 2.16 x1 – 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 x5 (0.7) (1.6) (-0.8) (1.0) (1.5) (-1.2) R2 = 0.9944, F = 106.3, DW = 3.4, T = 9, (1991-1999), t0.05(3) = 3.18, R2 = 0.99，而每个回归参数的 t 检验在统计上都不显著，这说明模型中存在严重的多重共线性。 4

LOG(Y)2010X1X1.01.52.00.51.01.52.0LOG(Y)30202100011.611411.612.012611.411.812:212.611.812.2122.040LOG(Y)3020210X3X30.310.260.270.280.290.300.260.270.280.290.300.31afLOG(M)3002101.X4oLOG(Y)320210X5X5001.03.01.02.03.00.54.52.02130.51.52.53.5下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R2=0.9944，所以根据Klein判别法，模型中存在严重的多重共线性。5

0 10 20 30 40 0.5 1.0 1.5 2.0 X1 Y 0 1 2 3 4 0.5 1.0 1.5 2.0 X1 LOG(Y) 0 10 20 30 40 11.4 11.6 11.8 12.0 12.2 12.4 12.6 X2 Y 0 1 2 3 4 11.4 11.6 11.8 12.0 12.2 12.4 12.6 X2 LOG(Y) 0 10 20 30 40 0.26 0.27 0.28 0.29 0.30 0.31 X3 Y 0 1 2 3 4 0.26 0.27 0.28 0.29 0.30 0.31 X3 LOG(Y) 0 10 20 30 40 1 2 3 4 5 6 7 X4 Y 0 1 2 3 4 1 2 3 4 5 6 7 X4 LOG(Y) 0 10 20 30 40 0.5 1.0 1.5 2.0 2.5 3.0 3.5 X5 Y 0 1 2 3 4 0.5 1.0 1.5 2.0 2.5 3.0 3.5 X5 LOG(Y) 下面用 Klein 判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于 R 2 = 0.9944，所以根据 Klein 判别法，模型中存在严重的多重共线性。 5

X1X2X3X4X5Ln(y)1.0000Ln(y)x10.98331.0000x21.00000.99380.9895x30.98750.98821.00000.9700x40.98200.96280.98720.96781.0000x50.98150.97030.98880.96540.99861.0000用逐步回归法筛选解释变量。（1）用每个解释变量分别对被解释变量做简单回归，以可决系数为标准确定解释变量的重要程度，为解释变量排序。Lny=-0.39+2.06 xlR = 0.9668, F= 204, T= 9(-2.1)(14.3)Ln y = - 33.26 +2.91 x2R =0.9875, F= 555, T=9(-22.2)(23.6)Ln y= - 18.46 + 70.75 x3R = 0.9752, F= 275.5, T= 9(-14.9)(16.6)Lny=-0.49 +0.56 x4R = 0.9644, F= 189.7, T= 9(-2.5)(13.8)Lny=-0.42+1.16 xsR=0.9633,F=183.5, T= 9(-2.2)(13.5)之所以取半对数模型，是因为y与xi,x3,x4,xs分别呈指数关系。解释变量的重要程度依次为x2,x3,x,x4,xs。（2）以Lny=-33.26-291x2为基础，依次引入x3,x1,x4,xs。首先把x引入模型，Ln y= -29.9+2.24 x2 + 16.76 x3R=0.988.F=265.5,T=9(-6.9)(2.7)(0.8)因为x3的引入使各回归系数的1值下降，同时x3的系数也未通过1检验，所以应剔除x3。接着把x引入模型，Ln y = - 33.37 +2.92 x2 - 0.007 xlR? = 0.9875, F=237.9, T= 9(- 3.2)(3.2)(-0.01)同理剔除xi引入x4Ln y= - 31.94 +2.79 x2 + 0.022 x4R=0.9876,F=238.7,T=9(- 3.4)(3.3)(0.14)同理剔除x4引入xsLn y=- 34.97+3.06 x2-0.062 xsR =0.9876, F=238.7, T= 9(- 3.4)(3.4)(-0.17)同理剔除x5，最后确定的模型是Lny=-33.26+2.91 x2R=0.9875,F=555,T=9(-22.2)(23.6)或者用解释变量之间相关系数值最小的xi和x4同做解释变量与Lny回归，得6

Ln(y) X1 X2 X3 X4 X5 Ln(y) 1.0000 x1 0.9833 1.0000 x2 0.9938 0.9895 1.0000 x3 0.9875 0.9700 0.9882 1.0000 x4 0.9820 0.9628 0.9872 0.9678 1.0000 x5 0.9815 0.9703 0.9888 0.9654 0.9986 1.0000 用逐步回归法筛选解释变量。（1）用每个解释变量分别对被解释变量做简单回归，以可决系数为标准确定解释变量的重要程度，为解释变量排序。 Ln y = - 0.39 + 2.06 x1 (- 2.1) (14.3) R2 = 0.9668, F = 204, T = 9 Ln y = - 33.26 +2.91 x2 (- 22.2) (23.6) R2 = 0.9875, F = 555, T = 9 Ln y = - 18.46 + 70.75 x3 (- 14.9) (16.6) R2 = 0.9752, F = 275.5, T = 9 Ln y = - 0.49 + 0.56 x4 (- 2.5) (13.8) R2 = 0.9644, F = 189.7, T = 9 Ln y = - 0.42 + 1.16 x5 (- 2.2) (13.5) R2 = 0.9633, F = 183.5, T = 9 之所以取半对数模型，是因为 y 与 x1, x3, x4, x5 分别呈指数关系。解释变量的重要程度依次为 x2, x3, x1, x4, x5 。（2）以 Ln y = - 33.26 - 291 x2 为基础，依次引入 x3, x1, x4, x5 。首先把 x3 引入模型， Ln y = - 29.9 + 2.24 x2 + 16.76 x3 (- 6.9) (2.7) (0.8) R2 = 0.988, F = 265.5, T = 9 因为 x3 的引入使各回归系数的 t 值下降，同时 x3的系数也未通过 t 检验，所以应剔除 x3。接着把 x1 引入模型， Ln y = - 33.37 + 2.92 x2 – 0.007 x1 (- 3.2) (3.2) (-0.01) R2 = 0.9875, F = 237.9, T = 9 同理剔除 x1引入 x4 Ln y = - 31.94 + 2.79 x2 + 0.022 x4 (- 3.4) (3.3) (0.14) R2 = 0.9876, F = 238.7, T = 9 同理剔除 x4引入 x5 Ln y = - 34.97 + 3.06 x2 - 0.062 x5 (- 3.4) (3.4) (-0.17) R2 = 0.9876, F = 238.7, T = 9 同理剔除 x5，最后确定的模型是 Ln y = - 33.26 + 2.91 x2 (- 22.2) (23.6) R2 = 0.9875, F = 555, T = 9 或者用解释变量之间相关系数值最小的 x1 和 x4同做解释变量与 Ln y 回归，得 6

Lny=- 0.48+ 1.08 xi + 0.28 x4R =0.98, F= 184, T= 9(- 3.4)(2.7)(2.5)用EViews求相关系数矩阵(1)点击Quick键并依次选择GroupStatistics,Correlations，将出现一个要求填写序列名的对话框（SeriesList），填好序列名后按OK。(2）在Workfile窗口中用鼠标选中序列名，点击Show键，OK键，从而打开数据组(Group）窗口。在数据组窗口点击View键选择Correlations。）表1变量y，X1，x2，x3，x4，xs的数据年中国人口数人均GDP电信业务总量邮政业务总量市镇人口比重人均消费水平yX1X2X3x4xs19911.51630.527511.58231.8790.8960.26372.28719922.26570.636711.71710.27631.07019933.82450.802611.85170.28142.9391.33119945.92300.95893.92311.98500.28621.74619958.75511.133412.11210.29044.8542.23619965.57612.08751.332912.23890.29372.641199712.68951.443412.36260.29926.0532.834199822.64941.662812.48100.30406.3072.9720.30893.143199931.32381.984412.59096.534资料来源：《中国统计年鉴》2000案例2：（file:B1E4）1998年农村居民食品支出（处理多重共线性）1998年31省市自治区农村居民人均年食品支出（food，元）、人均年总支出（EX，元）和人均年可支配收入（IN，元）DependentVariable:FOODMethod:Least SquaresDate:01/01/02Time: 05:49Sample:131Includedobservations:31Prob.VariableCoefficientStd. Errort-Statisticc30.847479.0339140.0000278.6733EX0.5076900.0551099.2125290.0000IN-0.1059450.041317-2.5641650.0160R-squared0.948247877.2419Meandependent varAdjusted R-squared0.944550S.D. dependent var273.130564.316228.419389S.E.of regressionAkaike info criterion115824.1Sum squared residSchwarz criterion8.558162-171.4876F-statistic256.5145Log likelihood0.9776920.000000Durbin-Watson statProb(F-statistic)见散点图2，food与IN是正相关的（0.89），但估计结果回归系数确是负的。显然与事实不符、与经济理论不符。原因是EX和IN之间的多重共线性（高度相关）所致。从下表可以看出都r(Ex,IN)=0.9537大于可决系数0.9482。按克莱茵判别准则模型存在严重的多重共线性。7

Ln y = - 0.48 + 1.08 x1 + 0.28 x4 (- 3.4) (2.7) (2.5) R2 = 0.98, F = 184, T = 9 用 EViews 求相关系数矩阵 (1)点击 Quick 键并依次选择 Group Statistics, Correlations，将出现一个要求填写序列名的对话框（Series List），填好序列名后按 OK。 (2) 在 Workfile 窗口中用鼠标选中序列名, 点击 Show 键，OK 键，从而打开数据组 (Group) 窗口。在数据组窗口点击 View 键选择 Correlations。）表 1 变量 y，x1，x2，x3，x4，x5 的数据年电信业务总量 y 邮政业务总量 x1 中国人口数 x2 市镇人口比重 x3 人均 GDP x4 人均消费水平 x5 1991 1.5163 0.5275 11.5823 0.2637 1.879 0.896 1992 2.2657 0.6367 11.7171 0.2763 2.287 1.070 1993 3.8245 0.8026 11.8517 0.2814 2.939 1.331 1994 5.9230 0.9589 11.9850 0.2862 3.923 1.746 1995 8.7551 1.1334 12.1121 0.2904 4.854 2.236 1996 12.0875 1.3329 12.2389 0.2937 5.576 2.641 1997 12.6895 1.4434 12.3626 0.2992 6.053 2.834 1998 22.6494 1.6628 12.4810 0.3040 6.307 2.972 1999 31.3238 1.9844 12.5909 0.3089 6.534 3.143 资料来源：《中国统计年鉴》2000 案例 2：(file:B1E4)1998 年农村居民食品支出（处理多重共线性） 1998 年 31 省市自治区农村居民人均年食品支出（food，元）、人均年总支出（EX，元）和人均年可支配收入（IN，元）见散点图 2，food 与 IN 是正相关的（0.89），但估计结果回归系数确是负的。显然与事实不符、与经济理论不符。原因是 EX 和 IN 之间的多重共线性（高度相关）所致。从下表可以看出都 r(EX, IN) = 0.9537 大于可决系数 0.9482。按克莱茵判别准则模型存在严重的多重共线性。 7

20002000FOODFOOD1500150010001000....500500INEXofo+010004000500020003000200030004000500060001000图1图 2Correlation MatrixEXINEX1.0000000.953720IN0.9537201.000000另外，如果用food只对IN回归，回归系数是正的。与上述二元回归结果中的IN的回归系数相比，符号都是反的。这也说明上述三元回归结果中存在多重共线性。Food,=285.5945+0.2571IntR = 0.79, F= 110, T= 31(4.7)(10.5)处理方法是用food只对EX回归。效果很好。DependentVariable:FOODMethod:Least SquaresTime: 06:19Date: 01/01/02Sample:131Included observations:31VariableStd. ErrorProb.Coefficientt-Statisticc258.464332.564377.9370280.0000EX0.3729220.01809420.610490.0000R-squared0.936094877.2419Mean dependent var273.1305Adjusted R-squared0.933890S.D. dependent varS.E. of regression70.226708.565798Akaike info criterion143021.9Schwarz criterion8.658313Sum squared resid-174.7570424.7922Log likelihoodF-statistic0.0000000.729924Prob(F-statistic)Durbin-Watson statINobsFOODEX1231215.082873.23952.32911.391976.73395.7616.91298.542405.324592.191056.451858.65867.381577.121981.4861702.682579.79898.877799.691471.462383.68805.331464.642253.191775.044206.895406.87101117.012336.783376.78112890.653814.561361.812732.141333.051863.06131101.642025.092946.378

0 500 1000 1500 2000 0 1000 2000 3000 4000 5000 EX FOOD 0 500 1000 1500 2000 1000 2000 3000 4000 5000 6000 IN FOOD 图 1 图 2 另外，如果用 food 只对 IN 回归，回归系数是正的。与上述二元回归结果中的 IN 的回归系数相比，符号都是反的。这也说明上述二元回归结果中存在多重共线性。 Foodt = 285.5945 + 0.2571 Int (4.7) (10.5) R2 = 0.79, F = 110, T = 31 处理方法是用 food 只对 EX 回归。效果很好。 obs FOOD EX IN 1 1215.08 2873.2 3952.32 2 911.39 1976.7 3395.7 3 616.9 1298.54 2405.32 4 592.19 1056.45 1858.6 5 867.38 1577.12 1981.48 6 898.87 1702.68 2579.79 7 799.69 1471.46 2383.6 8 805.33 1464.64 2253.1 9 1775.04 4206.89 5406.87 10 1117.01 2336.78 3376.78 11 1361.8 2890.65 3814.56 12 732.14 1333.05 1863.06 13 1101.64 2025.09 2946.37 8

14899.371538.24204815804.641595.092452.8316700.781240.31864.0517918.951699.432172.24181107.231889.172064.85191370.72683.183527.1420808.821414.761971.921767.421246.122018.3122831.081343.351720.4623871.831440.771789.1724757.551094.391334.4625801.991312.311387.2526497.41710.261231.527590.91181.381405.5928556.85939.551393.0529694.621117.791424.7930706.561327.631721.1731713.341450.291600.14资料来源：《中国统计年鉴》1989。案例3：（file:nonli14）中国私人轿车拥有量决定因素分析（多重共线性特征）1985-2002年中国私人轿车拥有量以年增长率23%，年均增长55万辆的速度飞速增长。1000800600400200868890929496980002考虑到目前农村家庭购买私人轿车的现象还很少，在建立中国私人轿车拥有量模型时，主要考虑如下因素：（1）城镇居民家庭人均可支配收入：（2）城镇总人口：（3）轿车产量：（4）公路交通完善程度：（5）轿车价格。“城镇居民家庭人均可支配收入”、“城镇总人口数”和“轿车产量”可以直接从统计年鉴上获得。“公路交通完善程度”用全国公路里程度量，也可以从统计年鉴上获得。由于国产轿车价格与进口轿车价格差距较大，而且轿车种类很多，做分种类的轿车销售价格与销售量统计非常困难，所以因素“轿车价格”暂且略去不用。定义变量名如下：Y：中国私人轿车拥有量（万辆）X1：城镇居民家庭人均可支配收入（元），X2：全国城镇人口（亿人）X3：全国汽车产量（万辆）X4：全国公路长度（万公里）10001000Y800800600400200200X1O.2000400060009

14 899.37 1538.24 2048 15 804.64 1595.09 2452.83 16 700.78 1240.3 1864.05 17 918.95 1699.43 2172.24 18 1107.23 1889.17 2064.85 19 1370.7 2683.18 3527.14 20 808.82 1414.76 1971.9 21 767.42 1246.12 2018.31 22 831.08 1343.35 1720.46 23 871.83 1440.77 1789.17 24 757.55 1094.39 1334.46 25 801.99 1312.31 1387.25 26 497.41 710.26 1231.5 27 590.9 1181.38 1405.59 28 556.85 939.55 1393.05 29 694.62 1117.79 1424.79 30 706.56 1327.63 1721.17 31 713.34 1450.29 1600.14 资料来源：《中国统计年鉴》1989。案例 3：（file: nonli14）中国私人轿车拥有量决定因素分析（多重共线性特征） 1985-2002 年中国私人轿车拥有量以年增长率 23%，年均增长 55 万辆的速度飞速增长。 0 200 400 600 800 1000 86 88 90 92 94 96 98 00 02 Y 考虑到目前农村家庭购买私人轿车的现象还很少，在建立中国私人轿车拥有量模型时，主要考虑如下因素：（1）城镇居民家庭人均可支配收入；（2）城镇总人口；（3）轿车产量；（4）公路交通完善程度；（5）轿车价格。 “城镇居民家庭人均可支配收入”、 “城镇总人口数”和“轿车产量”可以直接从统计年鉴上获得。“公路交通完善程度”用全国公路里程度量，也可以从统计年鉴上获得。由于国产轿车价格与进口轿车价格差距较大，而且轿车种类很多，做分种类的轿车销售价格与销售量统计非常困难，所以因素“轿车价格”暂且略去不用。定义变量名如下： Y：中国私人轿车拥有量（万辆） X1：城镇居民家庭人均可支配收入（元）， X2：全国城镇人口（亿人） X3：全国汽车产量（万辆） X4；全国公路长度（万公里） 0 200 400 600 800 1000 0 2000 4000 6000 8000 X1 Y 0 200 400 600 800 1000 2 3 4 5 6 X2 Y 9

1000100T800 800600 600400400..200200..X4X3xo100200300400100120140160180Correlation MatrixX1X2X3X4X11.0000000.9830220.9584650.929555X20.9830221.0000000.9628560.958785X30.9584650.9628561.0000000.955281X40.9295550.9552810.9587851.000000Dependent Variable:YMethod:Least SquaresDate:02/02/055Time:20:10Sample: 19852002Included observations:18VariableCoefficientStd. Errort-StatisticProb.c0.0001925.6637163.8137-5.650711X10.0057020.2434240.81150.023424X262.9428184.365040.7460770.4689X30.43220.4115640.5077860.810506X47.7292851.5601204.9542900.0003R-squared0.986721Mean dependent var284.26060.982635Adjusted R-squaredS.D. dependent var278.443936.69198S.E. of regressionAkaikeinfo criterion10.2731317501.9210.52045Sum squared residSchwarz criterion241.4995-87.45814F-statisticLog likelihood1.4008550.000000Durbin-Watson statProb(F-statistic)看相关系数阵，Y与X1，X2，X3，X4的相关系数都在0.9以上，但输出结果中，解释变量X1，X2，X3的回归系数却通不过显著性检验。这预示着解释变量之间一定存在多重共线性。看散点图，把Y与X3,X4处理成线性关系，把Y与X1,X2处理成幂函数（抛物线）关系，得结果如下，10

0 200 400 600 800 1000 0 100 200 300 400 X3 Y 0 200 400 600 800 1000 80 100 120 140 160 180 X4 Y 看相关系数阵，Y 与 X1，X2，X3，X4 的相关系数都在 0.9 以上，但输出结果中，解释变量 X1，X2，X3 的回归系数却通不过显著性检验。这预示着解释变量之间一定存在多重共线性。看散点图，把 Y 与 X3,X4 处理成线性关系，把 Y 与 X1,X2 处理成幂函数（抛物线）关系，得结果如下， 10

共13页，试读结束，阅读完整版请下载

刷新页面下载完整文档

VIP每日下载上限内不扣除下载券和下载次数；
按次数下载不扣除下载券；
注册用户24小时内重复下载只扣除一次；
顺序：VIP每日次数-->可用次数-->下载券；

点击下载完整版文档（PDF）