《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第八章 整群抽样 §1 群大小相等的整群抽样 §2 群大小不等的整群抽样

第八章整群抽样 设想国家教育部想了解上海中学生的体质状况,抽样调 查是既省钱支省时的办法,显然上海地区的中亭生均是总体 的单元,从全体学生中随机无放回地抽取若干样本是理想的 概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦 事,况且一个合理的有代表性的样本一般应该遍布全市,在 对如此分散的中学生样本逐个进行访问,其工作量之大可想 而知。一个方便的方法是在上海地区按学校抽样,在抽得的 几所学校中对该校所有中学生进行普遍调查。这就是本章要 讲述的整群抽样。 若总体可分为N个初级单元(称为群),每个初级单 元包含若干次级单元。按照某种方式从总体中抽取n个初级 单元,对这些单元中的所有次级单元全部进行调查。这种抽 样方法称为整群抽样
设想国家教育部想了解上海中学生的体质状况,抽样调 查是既省钱又省时的办法,显然上海地区的中学生均是总体 的单元,从全体学生中随机无放回地抽取若干样本是理想的 概率抽样方法,但是编制全体中学生的抽样框本身是件麻烦 事,况且一个合理的有代表性的样本一般应该遍布全市,在 对如此分散的中学生样本逐个进行访问,其工作量之大可想 而知。一个方便的方法是在上海地区按学校抽样,在抽得的 几所学校中对该校所有中学生进行普遍调查。这就是本章要 讲述的整群抽样。 第八章 整群抽样 若总体可分为 N个初级单元(称为群),每个初级单 元包含若干次级单元。按照某种方式从总体中抽取 n个初级 单元,对这些单元中的所有次级单元全部进行调查。这种抽 样方法称为整群抽样

在实际工作中,整群抽样方法被广泛采用。例如,在社 会经济调查中的人口调查、家计调查、农林牧业调查以及工 业产品质量检验等等都经常采用整群抽样调查。 采用整群抽样调査的原因有二。其一是在某些情况下, 往往由于不适合采用一个个地抽取样本单位,不得不采用整 群抽样。例如,某些工业产品的质量检验,事实上不能逐个 抽取样本单位来进行,只能在某一时间内,成批地抽取产品 来检验。 其二,即使抽样调查能够一个个地取样,但由于经济的 考虑也会选择整群抽样。例如,职工家庭生活水平调查中, 如果不是以居委会为群进行整群抽样调査,而是以居民户为 单位抽样,这些被抽到的居民户一般分散地居住,必然增加 交通费、延长调查时间等。所以出于对工作时间、经费等客 观条件的考虑,也得采用整群抽样调查
在实际工作中,整群抽样方法被广泛采用。例如,在社 会经济调查中的人口调查、家计调查、农林牧业调查以及工 业产品质量检验等等都经常采用整群抽样调查。 采用整群抽样调查的原因有二。其一是在某些情况下, 往往由于不适合采用一个个地抽取样本单位,不得不采用整 群抽样。例如,某些工业产品的质量检验,事实上不能逐个 抽取样本单位来进行,只能在某一时间内,成批地抽取产品 来检验。 其二,即使抽样调查能够一个个地取样,但由于经济的 考虑也会选择整群抽样。例如,职工家庭生活水平调查中, 如果不是以居委会为群进行整群抽样调查,而是以居民户为 单位抽样,这些被抽到的居民户一般分散地居住,必然增加 交通费、延长调查时间等。所以出于对工作时间、经费等客 观条件的考虑,也得采用整群抽样调查

整群抽样作为一种抽样组织形式,具有以下的优点: 1、调查单位比较集中,进行调查比较方便,可以减少 调套人员来往于调查单位之间的时间和费用。例如,在进行 农村居民户收入情况调查时,在一个县抽千分之五的村庄, 对其所有居民户进行调查,明显地比从全县直接抽千分之五 的农户进行调查,更便于组织,节省人力、旅途往返时间及 费用。 2、设计和组织抽样比较方便。例如,调查农村居民住 户,不必列出农村所有居民住户的抽样框,可以利用现成的 行政区域,如县、乡、村,将农村划分为若干群,这给抽样 设计方案带来很大方便。尤其是对那些无法事先掌握总体单 位情况的总体,采用整群抽样更为合适。 然而,整群抽样由于调查单位只能集中在若干群上,而 不能均匀分布在总体的各个部分,因此,它的精度比起简单 随机抽样来要低一些
整群抽样作为一种抽样组织形式,具有以下的优点: 1、调查单位比较集中,进行调查比较方便,可以减少 调查人员来往于调查单位之间的时间和费用。例如,在进行 农村居民户收入情况调查时,在一个县抽千分之五的村庄, 对其所有居民户进行调查,明显地比从全县直接抽千分之五 的农户进行调查,更便于组织,节省人力、旅途往返时间及 费用。 2、设计和组织抽样比较方便。例如,调查农村居民住 户,不必列出农村所有居民住户的抽样框,可以利用现成的 行政区域,如县、乡、村,将农村划分为若干群,这给抽样 设计方案带来很大方便。尤其是对那些无法事先掌握总体单 位情况的总体,采用整群抽样更为合适。 然而,整群抽样由于调查单位只能集中在若干群上,而 不能均匀分布在总体的各个部分,因此,它的精度比起简单 随机抽样来要低一些

例如,在一个有500个村庄、10000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大。 当然我们可以通过多抽几个群来弥补这一缺陷,但最关 键的一条还是在于总体内群的划分。为了使整群抽样的样本 具有一定的代表性,应当使群与群之间尽可能地差异小,而 群内单元之间的差异应当大(注意:这一点与分层抽样中总 体内层的划分有着极大的差别),这意味着每个群均具有足 够的代表性。如果划分的群相互之间颇多相似之处,那么少 量群的抽取足以提供良好的精度。一个总体划分成多少个群 ,每个群的规模大小如何又是一个新问题,通常我们面临的 总体会有自然的初级单元,例如本章开头所说的各所中学它 们互相之间关于学生的体质很相似,但在一个学校里每个学 生之间有一定的差异
当然我们可以通过多抽几个群来弥补这一缺陷,但最关 键的一条还是在于总体内群的划分。为了使整群抽样的样本 具有一定的代表性,应当使群与群之间尽可能地差异小,而 群内单元之间的差异应当大(注意:这一点与分层抽样中总 体内层的划分有着极大的差别),这意味着每个群均具有足 够的代表性。如果划分的群相互之间颇多相似之处,那么少 量群的抽取足以提供良好的精度。一个总体划分成多少个群 ,每个群的规模大小如何又是一个新问题,通常我们面临的 总体会有自然的初级单元,例如本章开头所说的各所中学它 们互相之间关于学生的体质很相似,但在一个学校里每个学 生之间有一定的差异。 例如,在一个有500个村庄、100000个农户的县,抽取 1%的农户就是1000户,而抽1%的村庄则只有5个村庄,也 许抽到的5个村庄农户多于1000,但由于样本单位只集中在 5个村庄,显然不如在全县范围内简单随机抽取1000户分布 均匀,代表性一般要差一些,抽样误差较大

倘若需要我们自行划分群,一般还要考虑到组织管理上 的方便、精度上的要求以及费用的多少等等因素 §1群大小相等的整群抛桿 首先讨论群大小相等时的简单情况。所谓群的大小相等 主要指群内次级单元的个数相等,假定关于群的抽取是随机 无放回的。 首先引进一些必要的记号: 表示第群中第j个次级单元 i=1,2,…,N;=1,2,,M yz表示样本中第群中第个次级单元的观测值 i=1,2,…,B;j=1,2,…,M
倘若需要我们自行划分群,一般还要考虑到组织管理上 的方便、精度上的要求以及费用的多少等等因素。 §1 群大小相等的整群抽样 首先讨论群大小相等时的简单情况。所谓群的大小相等 主要指群内次级单元的个数相等,假定关于群的抽取是随机 无放回的。 首先引进一些必要的记号: Yij ——表示第 群中第 个次级单元 i N j M = = 1,2, , ; 1,2, , i j ij y ——表示样本中第 群中第 个次级单元的观测值 i n j M = = 1,2, , ; 1,2, , i j

=∑V一第i群总和F=Y/M一第i群平均值 Y MM ∑∑V一总体平均值 S2=M122x0-1)一总体差异平方和 S3=12(x1-Y)2一群间异平方和 S2= ∑∑(X-)2一群内差异平方和 N(M-1)红 将Y改为y,则为相应的样本指标值
1 M i ij j Y Y = = —第 i 群总和 Y Y M i i = —第 i 群平均值 1 1 1 N M ij i j Y Y NM = = = —总体平均值 2 2 1 1 1 ( ) 1 N M ij i j S Y Y NM = = = − − —总体差异平方和 2 2 1 ( ) 1 N b i i M S Y Y N = = − − —群间差异平方和 2 2 1 1 1 ( ) ( 1) N M w ij i i j S Y Y N M = = = − − —群内差异平方和 将Y 改为y ,则为相应的样本指标值

它们之间的关系为: S=M-/N-1)S2+N(M-1)S21(81) 将Y改为y,n代替N,由于是整群抽样,M仍为M,不难 得到样本方差平方和的关系式: (n-Osh+n(M-1)sw (8.2) nM-1 S可作为S2的估计,但不是无偏估计。这是因为次级单元是 在抽到的群内普查,此时样本不是简单随机的。 由于群的选取是简单随机的,因此sb与s2分别是S2与S2的 无偏估计,于是得到S2的无偏估计为: 2 I(N-1)s2+N(M-1)2l(8.3) M
它们之间的关系为: 2 2 2 1 [( 1) ( 1) ] 1 S N S N M S b w NM = − + − − (8.1) 将 改为 , 代替 ,由于是整群抽样, 仍为 ,不难 得到样本方差平方和的关系式: Y y n N M M 2 2 2 1 [( 1) ( 1) ] 1 b w s n s n M s nM = − + − − (8.2) 可作为 的估计,但不是无偏估计。这是因为次级单元是 在抽到的群内普查,此时样本不是简单随机的。 2 s 2 S 由于群的选取是简单随机的,因此 与 分别是 与 的 无偏估计,于是得到 的无偏估计为: 2 b s 2 w s 2 Sb 2 Sw 2 S 2 2 2 1 ˆ [( 1) ( 1) ] 1 S N s N M s b w NM = − + − − (8.3)

当N相当大时,该估计可近似写为: 22+(M-1)2 (8.4) M 从(82)式可知,若n也足够大的话,S也可写成(84)形式, 此时,s2就可以看作是S的近似无偏估计了 再引进一个群内相关的记号,这个概念的重要性在于 它可以度量群内次级单元的差异程度,因为我们已经知道群 内单元的差异大就可能保证样本的代表性,如何划分群实质 上是一个抽样方案的设计问题。易见设计的效应好还是差在 相当程度上与这个P有关。P的定义为: ECYi-YOk-Y (8.5) E(Y-1)2
2 2 2 ( 1) ˆ b w s M s S M + − (8.4) 当 N 相当大时,该估计可近似写为: 从(8.2)式可知,若n 也足够大的话, 也可写成(8.4)形式, 此时, 就可以看作是 的近似无偏估计了。 2 s 2 S 2 s 再引进一个群内相关的记号 ,这个概念的重要性在于 它可以度量群内次级单元的差异程度,因为我们已经知道群 内单元的差异大就可能保证样本的代表性,如何划分群实质 上是一个抽样方案的设计问题。易见设计的效应好还是差在 相当程度上与这个 有关。 的定义为: c c c 2 ( )( ) ( ) ij ik c ij E Y Y Y Y E Y Y − − = − (8.5)

具体计算得 2∑(-Y)(k-F) i=l j<k P -+-*--(-1)MM-1)S2 (8.6) ∴-(a2+b)s2mb≤(a+b) 计算可得-1sp≤1,P在一定程度上反映了群内单元的 差异,当然这种差异一般是相对于群间差异而言的。它可以 用群内方差S2与群间方差S来表示: 1+(M-M-1)2 (8.7) (MM-1)S 当N足够大时,近似有 p≈(S2-s2)/(M-1)S2 (8.8)
具体计算得 1 2 2 ( )( ) ( 1)( 1) M M ij ik i j k c Y Y Y Y M NM S = − − = − − (8.6) 2 2 2 2 − + + ( ) 2 ( ) a b ab a b 计算可得 , 在一定程度上反映了群内单元的 差异,当然这种差异一般是相对于群间差异而言的。它可以 用群内方差 与群间方差 来表示: 1 1 − c c 2 Sb 2 Sw 2 2 ( 1) 1 ( 1) ( 1) b c M N S M NM S − + − = − (8.7) 当N足够大时,近似有 2 2 2 ( ) ( 1) c b − − S S M S (8.8)

又 s(MWM-1)(1-2)3 MN (8.9) 当N足够大时,近似有 SZ ≈1 (8.10) 由(88)以及(810)可得P的估计 Sb一 (8.11) 2+(M-1)2 由(8.1)也可以发现,考虑N相当大时,当p2≈0,Sb2与S形 几乎相等,也就是说群间方差几乎与群内方差一样,实际上 指出了我们对群的划分完全是随机进行的。如果P≤0,那 么群间的方差远远大于群内方差,群内单元差异相对不显著 将引起样本的代表性差,从而精度一定会差!
当N足够大时,近似有 又 2 2 ( 1)(1 ) c w NM S S MN − − = (8.9) 2 2 1 w c S S − (8.10) 由(8.8)以及(8.10)可得 c 的估计 2 2 2 2 ˆ ( 1) b w c b w s s s M s − + − (8.11) 由(8.11)也可以发现,考虑N相当大时,当 , 与 几乎相等,也就是说群间方差几乎与群内方差一样,实际上 指出了我们对群的划分完全是随机进行的。如果 ,那 么群间的方差远远大于群内方差,群内单元差异相对不显著 将引起样本的代表性差,从而精度一定会差! 0 c 2 Sb 2 Sw 0 c
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第二章 概率与概率分布 §7 若干数学准备.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第二章 概率与概率分布 §3 问卷设计(一).ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第二章 概率与概率分布 §5 调查员素质 §6 数据处理与调查总结报告.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第二章 概率与概率分布 §1 概率的概念.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第一章 绪论 §4 抽样调查的设计.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第一章 绪论 §2 抽样调查中的几个基本概念 §3 抽样调查的组织形式及调查方法.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第一章 绪论 §1 抽样调查的概念和作用.ppt
- 蚌埠医学院:《多元统计分析》重点一.doc
- 蚌埠医学院:《多元统计分析》重点二.doc
- 蚌埠医学院:《多元统计分析》第四讲 多元统计分析.doc
- 蚌埠医学院:《多元统计分析》第三章 聚类分析.ppt
- 蚌埠医学院:《多元统计分析》(英文版) Chapter 9 Cluster analysis.ppt
- 蚌埠医学院:《多元统计分析》第六章 试验设计与方差分析.doc
- 蚌埠医学院:《多元统计分析》第六讲 方差分析.doc
- 蚌埠医学院:《多元统计分析》第五讲 数据的收集.doc
- 蚌埠医学院:《多元统计分析》第三章 数据的描述.doc
- 蚌埠医学院:《多元统计分析》第七章 对应分析.ppt
- 蚌埠医学院:《多元统计分析》第三讲 多元统计理论基础.ppt
- 蚌埠医学院:《多元统计分析》(双语版) 第二讲 多元统计分析理论基础.ppt
- 蚌埠医学院:《多元统计分析》第一讲 多元统计分析.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第九章 二阶与多阶抽样 §1 初级单元大小相等的二阶抽样 §2 初级单元大小不等的二阶抽样 §3 三阶及多阶抽样.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第六章 二重抽样 §1 二重抽样简述 §2 二重分层抽样.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第六章 二重抽样 §3 二重抽样的比估计与回归估计 §4 二重抽样样本量的最优分配.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第七章 不等概率抽样 §1 放回的不等概率抽样 §2 不放回的不等概率抽样.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第三章 简单随机抽样 §1 简单随机抽样及实施方法 §2 总体平均数与总和的估计 §3 估计量的方差及其估计.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第三章 简单随机抽样(3-4)百分数的估针及其误差 §4 百分数的估计及其误差 §5 样本容量n的确定.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第十二章 非抽样误差 §1 抽样方案及抽样框引起的非抽样误差 §2 无回答现象 §3 计量误差 §4 敏感性问题的调查.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第十章 系统抽样 §1 系统抽样的若干习性 §2 估计量与方差 §3 方差与总体单元排列顺序的关系 §4 具有线性趋势的总体的抽样方法改进.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第四章 分层抽样 §1 分层抽样及估计量 §2 比例分配及最优分配.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第四章 分层抽样 §3 样本总容量n的确定 §4 分层的若干技术问题.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第五章 比估计与回归估计 §1 比估计及其性质 §2 分层抽样中的比估计.ppt
- 《抽样调查理论与方法》课程教学资源(PPT课件讲稿)第五章 比估计与回归估计 §3 数值例子 §4 回归估计量.ppt
- 《社会科学统计》(英文版) Lecture 5 T-Test (W).pdf
- 《社会科学统计》(英文版) Lecture 8 Simple Linear Regression.pdf
- 《抽样调查》课程教学资源(PPT课件讲稿)第一章 抽样调查概述.ppt
- 《抽样调查》课程教学资源(PPT课件讲稿)第十章 非抽样误差及其控制.ppt
- 《抽样调查》课程教学资源(PPT课件讲稿)第二章 抽样调查基本原理.ppt
- 《抽样调查》课程教学资源(PPT课件讲稿)第三章 简单随机抽样.ppt
- 《抽样调查》课程教学资源(PPT课件讲稿)第四章 分层抽样.ppt
- 《抽样调查》课程教学资源(PPT课件讲稿)第五章 比估计与回归估计.ppt