《医学统计学》课程教学课件(PPT讲稿)第三部份 多元统计分析(logistic回归)

第二十章Logistic回归分析 第13章介绍的多重线性回归研究一个正态随机因变量Y与一组自变量X=(X, X2,X。)的数量关系。其应用的前提条件是:Y与X呈线性关系:各个体观测资料 彼此独立:各X处的Y呈正态分布:不同X处Y的方差相等。医学中还常研究二分类因变 量(如患病与未患病、阳性与阴性等)或多分类因变量Y与一组自变量(X,X2,X,) 的关系,线性回归分析方法就无能为力。logistic回归分析则是处理该类资料的有效方法。 本章将主要介绍二分类因变量的og空tc回归分析,对于多分类因变量的logistic回归分析 方法,请参考有关专著。 第一节ogtc回归模型 一、logistic回归模型 例20-1为探讨超重和肥胖对高血压病的影响,2004年,某研究者采用整群抽样的方法, 对某地6个镇35周岁以上的常住人口进行高血压普查,同时收集了身高、体重等相关信息。 体质指数BM≥25判为“超重或肥胖”,BM<25为“正常”;收缩压≥140mmg 和(或)舒张压≥90mmg判为“高血压”。整理后资料见表20-1。记样本患病率为P,是 相应总体概率π的估计值:自变量X为体质指数,赋值为1与0,X=1表示“超重或肥胖”, X=0表示“正常”:因变量Y为是否患病,Y=1表示“患病”,Y=0表示“未患病”。 表20-1不同体质指数组高血压患病* 体质指数(X)调查人数患病(Y=1)未患病(Y-0)患病率(%) 正常 (X-0)6792 1331 5461 19.60 超重或肥胖(X-1)4148 1656 2492 39.92 合计 109402987 7953 27.30 该研究旨在建立高血压志病率与体质指数间的数量关系模型,估计超重与肥胖对高血压 患病的风险。由于因变量Y为二分类变量,不满足线性回归分析条件,首先对π进行数据
第二十章 Logistic 回归分析 第 13 章介绍的多重线性回归研究一个正态随机因变量 Y 与一组自变量 X =( X1 , X2 ,..., X p )的数量关系。其应用的前提条件是: Y 与 X 呈线性关系;各个体观测资料 彼此独立;各 X 处的 Y 呈正态分布;不同 X 处 Y 的方差相等。医学中还常研究二分类因变 量(如患病与未患病、阳性与阴性等)或多分类因变量 Y 与一组自变量( X1,X2 ,...,X p ) 的关系,线性回归分析方法就无能为力。 logistic 回归分析则是处理该类资料的有效方法。 本章将主要介绍二分类因变量的 logistic 回归分析,对于多分类因变量的 logistic 回归分析 方法,请参考有关专著。 第一节 logistic 回归模型 一、 logistic 回归模型 例20-1 为探讨超重和肥胖对高血压病的影响,2004年,某研究者采用整群抽样的方法, 对某地6个镇35周岁以上的常住人口进行高血压普查,同时收集了身高、体重等相关信息。 体质指数 BMI 25 判为“超重或肥胖”, BMI 25 为“正常”;收缩压≥140 mmHg 和(或)舒张压≥90 mmHg 判为“高血压”。整理后资料见表20-1。记样本患病率为 P ,是 相应总体概率 的估计值;自变量 X 为体质指数,赋值为1与0,X = 1 表示“超重或肥胖”, X = 0 表示“正常” ;因变量 Y 为是否患病, Y = 1 表示“患病”,Y = 0 表示“未患病”。 表20-1 不同体质指数组高血压患病率 体质指数( X ) 调查人数 患病( Y =1) 未患病( Y =0) 患病率(%) 正常 ( X =0) 6792 1331 5461 19.60 超重或肥胖( X =1) 4148 1656 2492 39.92 合计 10940 2987 7953 27.30 该研究旨在建立高血压患病率与体质指数间的数量关系模型,估计超重与肥胖对高血压 患病的风险。由于因变量 Y 为二分类变量,不满足线性回归分析条件,首先对 进行数据

变换: g)-N子2Na 这个变换将取值在0-1间的π值转换为值域在(-0,+0)的og1(π)值。 现在,建立ogi(π)与X的线性模型。 logi(π)=B。+Bx (20-1a) 或 nOdd)=B。+x (20-1b) 或 (20-1c) 变换式(201c),得 e4m π (20-2) e(B+m) 求解π,得 π=1+e (20-3) =1+e讽*西 (20-4) 因为(20-3)和(20-4)式的右端在数学上属于0g5tic函数,所以式(20-1a)、(20-1b) (20-3)与(204)均称为单个自变量的0g5stic回归模型。 若自变量扩展到P个,X=(X1,X2,X。),则多个自变量的logs回归模 型为 log(π)=B。+月X1+.+BX。 (20-5a) 或 M(Ods)=B。+BX1+.+p,Xp (20-5b) 会)=A+BX++B,X, (20-5c) e+++BeXp) π= 1+e%+6++mxp) 20.5d 1 π=1+eA+A++可 (20-5e)
变换: ) ln( ) 1 log it( ) ln( = Odds − = 这个变换将取值在 0-1 间的 值转换为值域在(- ,+ )的 log it( ) 值。 现在,建立 log it( ) 与 X 的线性模型。 log it() = 0 + X (20-1a) 或 ln(Odds) = 0 + X (20-1b) 或 X = + − 0 ) 1 ln( (20-1c) 变换式(20-1 c),得 ( ) 0 1 X e + = − (20-2) 求解 ,得 ( ) ( ) 0 0 1 X X e e + + + = (20-3) 或 ( ) 0 1 1 X e − + + = (20-4) 因为(20-3)和(20-4)式的右端在数学上属于 logistic 函数,所以式(20-1a)、(20-1 b)、 (20-3)与(20-4)均称为单个自变量的 logistic 回归模型。 若自变量扩展到 P 个, X = ( X1, X2 ,..., X p ),则多个自变量的 logistic 回归模 型为 X p X p log it( ) = 0 + 1 1 ++ (20-5 a) 或 Odds = 0 + 1X1 ++ p X p ln( ) (20-5 b) 或 X p X p = + + + − ) 0 1 1 1 ln( (20-5c) 或 ( ) ( ) 0 1 1 0 1 1 1 P P P P X X X X e e + + + + + + + = (20-5d) 或 ( ) 0 1 1 1 1 X P XP e − + + + + = (20-5e)

其中,B。为常数项(截距),B、B2、···B。为回归系数。 二、模型参数的意义 类似线性回归,B。表示模型中所有自变量均为0时,og(π)的值:回归系数B,表示 在控制其他自变量时,自变量X,变化一个单位所引起og(π)的改变量。 根据模型式(20-1b),我们有优势的表达式 Odds =e) 例20-1中,“超重或肥胖”组(X=1)志高血压的优势为 Odds,=eA+BM=e民+Bm, “正常”组(X=0)患高血压的优势为 Oddso=e)e, 两组的优势比(odds ratio,OR)为 OR=odds oddso ea=em 一般地,根据多个自变量的logistic回归模型,在其他变量取值不变的情形下,与变量 X,的二个水平C,与C2(C2>C,)相对应的事件的优势比为 OR=e(C-G) (20-6) 当X,的二个水平相差1个单位时,OR=e,h(OR,)=B,: 可见,0gtc回归模型的参数B,就是在其他变量取值不变的情形下,X,增加1个单 位后与增加前相比较,事件的优势比。 1g5c回归分析广泛用于流行病学中前瞻性的队列研究、回顾性的病例-对照研究以及 现况研究。研究中,当变量X,的回归系数B,>0时,X,增加1个单位后与增加前相比, 事件的优势比OR,>1,表明与X,相应的因素为危险因素:B<0时,X,增加1个单位 后与增加前相比,事件的优势比OR,<1,表明与X,相应的因素为保护因素:B,=0,X, 增加1个单位后与增加前相比,事件的优势比OR,=1,表明与X,相应的因素对结果变量
其中, 0 为常数项(截距), 1、 2、... P 为回归系数。 二、模型参数的意义 类似线性回归, 0 表示模型中所有自变量均为0时, log it( ) 的值;回归系数 j 表示 在控制其他自变量时,自变量 X j 变化一个单位所引起 log it( ) 的改变量。 根据模型式(20-1b),我们有优势的表达式 ( ) 0 X Odds e + = 例 20-1 中, “超重或肥胖”组( X = 1 )患高血压的优势为 ( 1) ( ) 1 0+ 0+ Odds = e = e , “正常”组( X = 0 )患高血压的优势为 0 0 ( 0) 0 Odds = e = e + , 两组的优势比(odds ratio, OR) 为 e e e odds odds OR = = = + 0 0 ( ) 0 1 一般地,根据多个自变量的 logistic 回归模型,在其他变量取值不变的情形下,与变量 X j 的二个水平 C1 与 C2 ( C2 C1 )相对应的事件的优势比为 ( ) j C2 C1 OR e − = (20-6) 当 X j 的二个水平相差 1 个单位时, j OR e j = ,ln( ) OR j = j 。 可见, logistic 回归模型的参数 j 就是在其他变量取值不变的情形下,X j 增加 1 个单 位后与增加前相比较,事件的优势比。 logistic 回归分析广泛用于流行病学中前瞻性的队列研究、回顾性的病例-对照研究以及 现况研究。研究中,当变量 X j 的回归系数 j 0 时, X j 增加 1 个单位后与增加前相比, 事件的优势比 OR j 1,表明与 X j 相应的因素为危险因素; j 0 时, X j 增加 1 个单位 后与增加前相比,事件的优势比 OR j 1,表明与 X j 相应的因素为保护因素; j = 0 ,X j 增加 1 个单位后与增加前相比,事件的优势比 OR j = 1,表明与 X j 相应的因素对结果变量

不起作用。 第二节logistic回归的参数估计及假设检验 一、1 ogistic回归的参数估计 logs心回归模型中的参数R。、B,、B2、···Bp需要通过样本资料,按照一定方 法进行估计,估计量记为,、b、b,、···b。·参数估计方法有多种,极大似然估计 (Maximum likelihood estimate,MLE)最为常用,其基本思想是选择能有最大概率 获得当前样木的参数值作为参数的估计值。 假设n例观察对象彼此独立,其自变量为X=(X,X;,X),因变量为Y(0-1 变量),i=1,2,n。对于第i个体,给定X时,出现观察结果y(0或1)的概率为: 1 1 PK)=+ea'L- +e*时*4] 若y,=1,这个概率就是第一个方括号:若Y=0,这个概率就是第二个方括号。 对于n个独立个体,给定自变量X时,出现当前观察结果Y,(1=1,2,n)的概率 为上述n个概率的乘积 PX,2,yX,X2,.X")=Π 1 1 +e**5]- +e4] 称为似然函数(ikehood function),记为L。求解B,B,B,P。,使似然函数L达到极 大,或使似然函数的对数nL达到极大,这样得到的解记为b,b,b2,.,b。,称为参数 B,B,B2,.,B。的极大似然估计值。 二、假设检验和回归系数的区间估计 1.假设检验 由样本估计参数,并建立了logistic回归方程后,参数的估计值b,≠0(广=1,2.p)
不起作用。 第二节 logistic 回归的参数估计及假设检验 一、 logistic 回归的参数估计 logistic 回归模型中的参数 0 、 1、 2、... P 需要通过样本资料,按照一定方 法进行估计,估计量记为 0 b 、 1 b 、 2 b 、... p b 。参数估计方法有多种,极大似然估计 ( Maximum likelihood estimate, MLE )最为常用,其基本思想是选择能有最大概率 获得当前样本的参数值作为参数的估计值。 假设 n 例观察对象彼此独立,其自变量为 = i X ( i X1 , i X 2 ,..., i X p ),因变量为 Yi (0-1 变量),i =1,2, ,n 。对于第 i 个体,给定 i X 时,出现观察结果 Yi (0或1)的概率为: i i P p i i i P p i Y X X Y X X i i e e P Y X − − + + + − + + + + − + = 1 ( ) ( ) ] 1 1 ] [1 1 1 ( ) [ 0 1 1 0 1 1 , 若 Yi =1 ,这个概率就是第一个方括号;若 Yi = 0 ,这个概率就是第二个方括号。 对于 n 个独立个体,给定自变量 i X 时,出现当前观察结果 Yi ( i =1,2, ,n )的概率 为上述 n 个概率的乘积 = − − + + + − + + + + − + = n i Y X X Y X X n n i i P p i i i P p i e e P Y Y Y X X X 1 1 ( ) ( ) 1 2 1 2 ] 1 1 ] [1 1 1 ( , , , , , ) [ 0 1 1 0 1 1 称为似然函数(likelihood function),记为 L 。求解 p , , , , 0 1 2 ,使似然函数 L 达到极 大,或使似然函数的对数 ln L 达到极大,这样得到的解记为 b b b bp , , , , 0 1 2 ,称为参数 p , , , , 0 1 2 的极大似然估计值。 二、假设检验和回归系数的区间估计 1. 假设检验 由样本估计参数,并建立了 logistic 回归方程后,参数的估计值 bj 0 ( j =1,2 . p )

并不一定意味者参数阝,≠0,也不一定意味着回归方程就成立,还需通过假设检验才能 作出推断。 与l0g5sc回归分析有关的假设检验包括两个内容:一是检验整个模型,即检验因变量 与自变量之间的关系能否用所建立的回归方程来表示:二是检验单个回归系数是否为0,即 检验单个自变量对因变量的影响是否存在。最常用的检验方法有似然比检验和Wld检验。 (I)似然比检验(ikelihood ratio test) 似然比检验常用于对整个模型的检验,检验的假设为 H。:所有自变量的总体回归系数均为0 H,:自变量的总体回归系数不全为0 假设模型A含有p个自变量,相应的达到极大的对数似然函数值记为山L。:模型B是 在模型A的P个自变量基础上新加入一个或几个自变量,自变量个数变为I,其相应的达到 极大的对数似然函数值记为山L·通过比较模型A与模型B的极大似然函数值,构建似然 比检验统计量G, G=2(In L-In Lo) (20-7) 如果说,极大对数似然函数值nL。和nL分别度量p个自变量和I个自变量模型“似然” 的程度,那么,统计量G度量的则是增加1-P个自变量后,模型“似然”程度的增量。 可以证明,在H。成立的条件下,如果样本量较大,G近似地服从自由度为1-P的x2分 布,(20-7)亦常记为x2-2nL1-nL)。 (2)Wald检验(Wald test) Wald检验可用于对单个回归系数的检验,检验的假设为 Ho:B,=0 H1:B,≠0 Wald检验统计量为
并不一定意味着参数 j 0 ,也不一定意味着回归方程就成立,还需通过假设检验才能 作出推断。 与 logistic 回归分析有关的假设检验包括两个内容:一是检验整个模型,即检验因变量 与自变量之间的关系能否用所建立的回归方程来表示;二是检验单个回归系数是否为 0,即 检验单个自变量对因变量的影响是否存在。最常用的检验方法有似然比检验和 Wald 检验。 (1)似然比检验( likelihood ratio test ) 似然比检验常用于对整个模型的检验,检验的假设为 H0 :所有自变量的总体回归系数均为 0 H1 :自变量的总体回归系数不全为 0 假设模型 A 含有 p 个自变量,相应的达到极大的对数似然函数值记为 0 ln L ;模型 B 是 在模型 A 的 p 个自变量基础上新加入一个或几个自变量,自变量个数变为 l ,其相应的达到 极大的对数似然函数值记为 1 ln L 。通过比较模型 A 与模型 B 的极大似然函数值,构建似然 比检验统计量 G , 2(ln ln ) G = L1 − L0 (20-7) 如果说,极大对数似然函数值 0 lnL 和 1 ln L 分别度量 p 个自变量和 l 个自变量模型“似然” 的程度,那么,统计量 G 度量的则是增加 l − p 个自变量后,模型“似然”程度的增量。 可以证明,在 H0 成立的条件下,如果样本量较大, G 近似地服从自由度为 l − p 的 2 分 布,(20-7)亦常记为 2(ln ln ) 1 0 2 = L − L 。 (2) Wald 检验( Wald test ) Wald 检验可用于对单个回归系数的检验,检验的假设为 H0 : j = 0 H1: j 0 Wald 检验统计量为

(20-8) 等价于 2=,=1 (20-9) 可以证明,在H。成立的条件下,如果样本量较大,Z近似地服从标准正态分布N(0,), x2近似地服从自由度为1的x2分布。 2.回归系数的区间估计 己知b的抽样分布近似地服从正态分布,根据正态分布理论,总体回归系数B的(1-α) 置信区间为b±Z.12S。,则OR的估计值为e,(I-a)置信区间为 e(bZanS,) (20-10) 3.实例:假设检验和参数估计(基于SAS的输出) (1)关于模型的似然比检验 模型中仅有常数项(回归系数B=0)时,nL。=6413.618,加入自变量X后, hL,=6150.751,似然比统计量 G=2nL1-nL)=2(-6150.751)-(-6413.618)=525.733 P<0.0001,拒绝H。,可以认为所建立的ogistic回归方程是有意义的。 (2)关于参数的Wa1d检验及OR的置信区间 表20-2参数估计、Wald检验和OR 变量参数估计值 OR95%置信区 S。Waldx2P值 OR 名 b 间 常数 -1.41170.03062132.7414<0.0001 项 X1.00300.0440518.6950<0.00012.7272.501-2.972 由表20-2,b。=-1.4117,b=1.0030,可以立即写出l0 gistic回归方程 =-147+100x
Sb b Z − 0 = (20-8) 等价于 2 2 ( ) Sb b = , =1 (20-9) 可以证明,在 H0 成立的条件下,如果样本量较大, Z 近似地服从标准正态分布 N(0,1) , 2 近似地服从自由度为 1 的 2 分布。 2. 回归系数的区间估计 已知 b 的抽样分布近似地服从正态分布,根据正态分布理论,总体回归系数 的 (1−) 置信区间为 b Z / 2 Sb ,则 OR 的估计值为 b e ,(1−) 置信区间为 ( ) b Z / 2 Sb e (20-10) 3.实例:假设检验和参数估计(基于SAS的输出) (1)关于模型的似然比检验 模型中仅有常数项(回归系数 = 0 )时, ln L0 = −6413.618 ,加入自变量 X 后, ln L1 = −6150.751,似然比统计量 G = 2(ln L1 − ln L0 ) = 2[(−6150.751) − (−6413.618)] = 525.733 P <0.0001,拒绝 H0 ,可以认为所建立的 logistic 回归方程是有意义的。 (2)关于参数的Wald检验及 OR 的置信区间 表20-2 参数估计、Wald检验和 OR 变量 名 参数估计值 b b S Wald 2 P 值 OR OR 95%置信区 间 常数 项 -1.4117 0.0306 2132.7414 <0.0001 X 1.0030 0.0440 518.6950 <0.0001 2.727 2.501~2.972 由表 20-2,b0 = −1.4117 ,b =1.0030 ,可以立即写出 logistic 回归方程 X p p ) 1.4117 1.0030 1 ln( = − + −

e-1411741.0030x) p=1+e-14mLo0西 左端我们写的是P而不是π,这是因为右端的系数是,和b,而不是B。和B,表明这里 的Logistic回归方程是根据样本资料对理论模型的估计。 对单个回归系数进行Wald检验,Wald统计量x2=518.6950,P<0.0001,可以认为 超重或晒胖对高血压病有影响。OR估计值为 0R=e5=e00=2.727 OR的95%置信区间为 e(bZun:s。)=e0030t196040=2s01,297m 这个置信区间并不包含1,上下限均大于1,再次表明,超重或肥胖是高血压病的危险因素, 4.实例:自变量筛选(基于SAS的输出) 例202为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地 1790名农村居民进行了入户调查。调查内容包括性别(男0,女:1)、年龄(<5岁:1,5 岁2,15岁3,45岁-4,65岁5)、年人均收入(不低于平均水平0,低于平均水平1)、 医疗保障(有:0,无:1)、距就近医疗点时间(<10分钟:1,10分钟2,30分钟3)、自 感疾病严重程度(不严重:1,一般:2,严重3)、发病时间(急性病两周内发生:1,急性病 两周前发生延续到两周内2,慢性病持续到两周内:3、就诊(就诊:0,未就诊1)。11790 名居民中,调查前二周患病者1649人,其中未就医者720人,患者有关资料整理结果见表 20-3. 表20-3某地二周患病者门诊医疗卫生服务利用影响因素资料 忠者性别年龄年人均收入医疗保障 距就近医自感疾病发病 就诊 疗点时间严重程度时间 编号 X X2 X X。X, y 1 1 ¥ 0 2 3 0
或 ( 1.4117 1.0030 ) ( 1.4117 1.0030 ) 1 X X e e p − + − + + = 左端我们写的是 p 而不是 ,这是因为右端的系数是 0 b 和 1 b ,而不是 0 和 1 ,表明这里 的 Logistic 回归方程是根据样本资料对理论模型的估计。 对单个回归系数进行 Wald 检验, Wald 统计量 2 =518.6950,P <0.0001, 可以认为, 超重或肥胖对高血压病有影响。OR 估计值为 2.727 ˆ 1.0030 OR = e = e = b OR 的 95%置信区间为 = = ( ) (1.00301.960.0440) / 2 e e b Z Sb (2.501, 2.972) 这个置信区间并不包含 1,上下限均大于 1,再次表明,超重或肥胖是高血压病的危险因素。 4.实例:自变量筛选(基于SAS的输出) 例 20-2 为研究居民两周患病未治疗的影响因素,采用多阶段分层整群抽样,对某地 11790 名农村居民进行了入户调查。调查内容包括性别(男:0 ,女:1)、年龄(<5 岁:1,5 岁-:2,15 岁-:3 ,45 岁-:4 ,65 岁-:5 )、年人均收入(不低于平均水平:0,低于平均水平:1)、 医疗保障(有:0 ,无:1)、距就近医疗点时间(<10 分钟:1,10 分钟-:2,30 分钟-:3) 、自 感疾病严重程度(不严重:1,一般:2,严重:3)、发病时间(急性病两周内发生:1,急性病 两周前发生延续到两周内:2,慢性病持续到两周内:3)、就诊(就诊:0,未就诊:1)。11790 名居民中,调查前二周患病者 1649 人,其中未就医者 720 人,患者有关资料整理结果见表 20-3。 表 20-3 某地二周患病者门诊医疗卫生服务利用影响因素资料 患者 编号 性别 年龄 年人均收入 医疗保障 距就近医 疗点时间 自感疾病 严重程度 发病 时间 就诊 X1 X2 X 3 X4 X 5 X 6 X7 Y 1 1 4 0 1 2 2 3 1 2 1 4 0 1 1 2 3 0 3 0 4 0 1 1 3 3 0 4 0 3 1 1 2 1 1 0

2 1 0 1645 0 1646 0 4 1647 1 2 1648 4 2 1649 0 5 0 2 2 3 “发病时间”虽为有序多分类变量资料,但目前尚不能确定表203中赋值是否可真实 反映其测度,故以最高值为参照水平,产生2个哑变量。 “发病时间”哑变量: X Xn 1 1 0 0 1 3 0 0 与多重线性回归类似,多因素0g$回归同样存在对自变量的筛选问题,即按事先规 定的检验水平,利用固定的算法,将具有统计意义的变量逐步选入模型,不具有统计意义的 变量剔除在模型外。具体方法有前进法、后退法、逐步法,但检验统计量不再是线性回归中 的F统计量,而是前述的似然比检验统计量G(或x2)、ald统计量等。 本例采用后退法(α=0.05)进行变量筛选。 ()利用似然比检验筛选自变量 表20-4逐步回归过程及模型检验 步骤剔除变量 模型似然比检验x2值自由度 P值 0 无剔除变量 98.9711 8 <0.0001 1 2160.468 98.8693 7 <0.0001 2 X 2160.569 98.7621 6 <0.0001 3 2160.676 96.1755 <0.0001
5 1 3 1 1 2 1 1 0 ... ... ... ... ... ... ... ... ... 1645 0 4 1 1 2 2 1 0 1646 0 4 1 1 3 3 3 0 1647 1 5 1 1 2 2 3 1 1648 1 4 1 1 2 2 1 0 1649 0 5 0 1 2 2 3 1 “发病时间”虽为有序多分类变量资料,但目前尚不能确定表 20-3 中赋值是否可真实 反映其测度,故以最高值为参照水平,产生 2 个哑变量。 “发病时间”哑变量: X7 X 71 X72 1 1 0 2 0 1 3 0 0 与多重线性回归类似,多因素 logistic 回归同样存在对自变量的筛选问题,即按事先规 定的检验水平,利用固定的算法,将具有统计意义的变量逐步选入模型,不具有统计意义的 变量剔除在模型外。具体方法有前进法、后退法、逐步法,但检验统计量不再是线性回归中 的 F 统计量,而是前述的似然比检验统计量 G (或 2 )、Wald 统计量等。 本例采用后退法( =0.05)进行变量筛选。 (1) 利用似然比检验筛选自变量 表 20-4 逐步回归过程及模型检验 步骤 剔除变量 -2 ln L 模型似然比检验 2 值 自由度 P 值 0 无剔除变量 98.9711 8 <0.0001 1 X 3 2160.468 98.8693 7 <0.0001 2 X 5 2160.569 98.7621 6 <0.0001 3 X1 2160.676 96.1755 5 <0.0001

4 X 2163.263 93.3326 4 0.05,X,可剔除。此时,模型似然比检验X2=2259.439-2160.569-9887,P0.05,但这2 个哑变量应作为一个整体进行筛选。 进入模型的变量有X2、X6、X、X2,相应的OR估计值分别为1262、0.544、0.606 和0.712,0R的95%置信区间分别为(1.128,1.412)、(0.468,0.632)、(0.480,0766) 和(0.495,1.022),故可以认为年龄X2、自感疾病严重程度X6和发病时间X,是两周患 病者就诊的影响因素。 最终得到的logistic回归方程为:
4 X4 2163.263 93.3326 4 0.05,X 3 可剔除。此时,模型似然比检验 2 =2259.439-2160.569=98.87,P 0.05,但这 2 个哑变量应作为一个整体进行筛选。 进入模型的变量有 X2 、X 6、X 71、X72 ,相应的 OR 估计值分别为 1.262、0.544、0.606 和 0.712,OR 的 95%置信区间分别为(1.128,1.412)、(0.468,0.632)、(0.480,0.766) 和(0.495,1.022),故可以认为年龄 X2 、自感疾病严重程度 X 6 和发病时间 X7 是两周患 病者就诊的影响因素。 最终得到的 logistic 回归方程为:

HP=0.4673+02327X,-06089X。-05004X1-03403Xn e0.4673402327X-0.6089X-0.504K,1-0.3403X pF1+e046a3,w,wo可 第三节条件ogistic回归模型 医学研究中,常采用匹配设计,即为病例组的每一个研究对象匹配一个或几个有同样特 征的未患病者,作为该病例的对照,这样,除了研究因素外,病例与对照的其他特征相同, 从而消除“其他特征”的混杂作用。常用的匹配形式为1:山,即一个病例匹配1个对照。 1.1:1配对设计的条件0gstc回归模型 设有n对独立的观察对象,每个对子含两个人,第1个已经患病,第2个没有患病:自 变量为X,第1层第1个人的自变量记为X,“第2个人的自变量记为X0。 表20-61:1配对设计数据的一般格式 病例 对照 配对号 1 1 0 2 X2 1 X20 0 . n X 1 根据(203)式的模型,在任何一层,第1个人患病的概率和未患病的概率分别为 e(bo+ar:) 元=1十eA+而 和1-元=1十e风而 第2个人患病的概率和未患病的概率分别为
2 6 71 3403 72 ) 0.4673 0.2327 0.6089 0.5004 0. 1 ln( X X X X p p = + − − − − 或 (0.4673 0.2327 0.6089 0.5004 0.3403 ) (0.4673 0.2327 0.6089 0.5004 0.3403 ) 2 6 7 1 7 2 2 6 7 1 7 2 1 X X X X X X X X e e p + − − − + − − − + = 第三节 条件 logistic 回归模型 医学研究中,常采用匹配设计,即为病例组的每一个研究对象匹配一个或几个有同样特 征的未患病者,作为该病例的对照,这样,除了研究因素外,病例与对照的其他特征相同, 从而消除“其他特征”的混杂作用。常用的匹配形式为 1:1,即一个病例匹配 1 个对照。 1.1:1 配对设计的条件 logistic 回归模型 设有 n 对独立的观察对象,每个对子含两个人,第 1 个已经患病,第 2 个没有患病;自 变量为 X ,第 i 层第 1 个人的自变量记为 Xi1 ,“第 2 个人的自变量记为 Xi0 。 表 20-6 1:1 配对设计数据的一般格式 配对号 病例 对照 X Y X Y 1 X11 1 X10 0 2 X21 1 X20 0 ... ... ... ... ... n X n1 1 Xn0 0 根据(20-3)式的模型,在任何一层,第 1 个人患病的概率和未患病的概率分别为 ( ) ( ) 1 0 1 0 1 1 X X e e + + + = 和 1 ( ) 0 1 1 1 1 X e + + − = 第 2 个人患病的概率和未患病的概率分别为
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《医学统计学》课程教学课件(PPT讲稿)第三部份 多元统计分析(logistic).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第三部份 多元统计分析(判别分析).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第三部份 多元统计分析(聚类分析).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第三部份 多元统计分析(多元逐步回归).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第三部份 多元统计分析(多元线性回归).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第三部份 多元统计分析(多因素分析绪论).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第二部份 科研设计(现场调查设计).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第二部份 科研设计(实验设计方案).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第二部份 科研设计(医学科研设计).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第二部份 科研设计(医学研究设计概述).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第一部份 基本统计(统计方法应用上常见的错误).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第一部份 基本统计(相关与回归).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第一部份 基本统计(单向方差分析).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第一部份 基本统计(统计表与统计图).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第一部份 基本统计(二项分布与泊松分布).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第一部份 基本统计(相对数).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第一部份 基本统计(正态分布与医学参考值范围).ppt
- 《医学统计学》课程教学课件(PPT讲稿)第一部份 基本统计(结论).ppt
- 《医学统计学》课程教学资源(试卷习题)套题6参考答案.doc
- 《医学统计学》课程教学资源(试卷习题)套题6试卷.doc
- 《医学统计学》课程教学课件(PPT讲稿)第三部份 多元统计分析(变量赋值).doc
- 《医学统计学》课程教学课件(PPT讲稿)第四部份 SAS统计软件包(SAS基础教程).ppt