中国高校课件下载中心 》 教学资源 》 大学文库

《心理统计学》课程授课教案(讲稿)第三章 计量资料的描述统计

文档信息
资源类别:文库
文档格式:DOC
文档页数:14
文件大小:743KB
团购合买:点击进入团购
内容简介
《心理统计学》课程授课教案(讲稿)第三章 计量资料的描述统计
刷新页面文档预览

第三章计量资料的统计描述2第一节分布特征描述2一、频数分布的概念、方法与用途第二节集中趋势的描述一、算术均数二、中位数..6三、几何均数7四、百分位数和四分位数.8第三节离散趋势的描述0一、极差.9二、方差与标准差.9三、变异系数10第四节正态分布...11一、正态分布的概念11二、正态分布的分布特征.12三、标准正态分布13四、正态曲线下的面积.13第五节统计描述的SPSS操作方法与结果错误!未定义书签。一、频数分布分析(FREQUENCIES)错误!未定义书签。二、描述性统计分析(DESCRIPTIVES)错误!未定义书签

1 第三章 计量资料的统计描述.2 第一节 分布特征描述 .2 一、频数分布的概念、方法与用途 .2 第二节 集中趋势的描述.5 一、算 术 均 数.5 二、中 位 数.6 三、 几 何 均 数.7 四、百分位数和四分位数.8 第三节 离散趋势的描述 .9 一、极 差.9 二、方 差 与 标 准 差.9 三、 变 异 系 数. 10 第四节 正态分布. 11 一、正态分布的概念. 11 二、正态分布的分布特征. 12 三、标准正态分布 . 13 四、正态曲线下的面积. 13 第五节 统计描述的 SPSS 操作方法与结果.错误!未定义书签。 一、频数分布分析(FREQUENCIES).错误!未定义书签。 二、描述性统计分析(DESCRIPTIVES).错误!未定义书签

第三章计量资料的统计描述问题已知某班各学生在一次测验中的成绩,该班学生的平均成绩是多少?又已知该年级各班学生的平均成绩及人数,其年级平均分数是多少?已知某市历年高中毕业生人数,如何求其平均增长率并预测未来的毕业生人数?假如两个班某科目平均成绩相同,如何比较二者的差异?如何比较不同科自考试成绩的代表水平?学习目标1.理解频数分布的概念、理解各种描述集中趋势和离散趋势指标的概念2.熟练掌握频数分布的方法与用途以及各种平均数的计算方法3.熟练掌握方差与标准差的意义与分析方法,熟练掌握正态分布的特点及其应用4.掌握均数、中位数和几何平均数的应用范围5.了解其他平均数指标和离散程度指标的意义和应用6.掌握SPSS中描述性统计基本分析方法和操作计量资料也称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料。在心理测验理论中,最常用的测量水平是等距测量,通过建立一个特定的等距量表来测量一个人某方面的能力。这些用等距量表测量所得的数据为有意义的数值,当通过实验或调查采集到大量等距数据后,常常需要先对这些数据进行整理和描述。这类变量常可用两种描述计量资料分布规律的统计方法来描述:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。第一节分布特征描述一、频数分布的概念、方法与用途搜集到数据后,欲了解其分布的范围、数据最集中的区间以及分布的形态,可通过编制频数分布表来实现。1.频数分布表的编制频数分布表(frequencytable)用来表示一批数据各观察值或在不同取值区间的出现的频紧程度(频数)。对于散布区间很大的连续型数据,数据散布区间由若于组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下:例3-1某班52名学生在一项拼写测验中的成绩如下,试编制频数表和观察频数分布情况。592752 36275035254736285636342234224333214332352446444232203217403137393138214229501736273830303837293731频数表的编制步骤:2

2 第三章 计量资料的统计描述 问题 已知某班各学生在一次测验中的成绩,该班学生的平均成绩是多少?又已知该年级各班 学生的平均成绩及人数,其年级平均分数是多少?已知某市历年高中毕业生人数,如何求其 平均增长率并预测未来的毕业生人数?假如两个班某科目平均成绩相同,如何比较二者的差 异?如何比较不同科目考试成绩的代表水平? 学习目标 1. 理解频数分布的概念、理解各种描述集中趋势和离散趋势指标的概念 2. 熟练掌握频数分布的方法与用途以及各种平均数的计算方法 3. 熟练掌握方差与标准差的意义与分析方法,熟练掌握正态分布的特点及其应用 4. 掌握均数、中位数和几何平均数的应用范围 5. 了解其他平均数指标和离散程度指标的意义和应用 6. 掌握 SPSS 中描述性统计基本分析方法和操作 计量资料也称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料。在心 理测验理论中,最常用的测量水平是等距测量,通过建立一个特定的等距量表来测量一个人 某方面的能力。这些用等距量表测量所得的数据为有意义的数值,当通过实验或调查采集到 大量等距数据后,常常需要先对这些数据进行整理和描述。这类变量常可用两种描述计量资 料分布规律的统计方法来描述:一类是用统计图表,主要是频数分布表(图);另一类是选 用适当的统计指标。 第一节 分布特征描述 一、频数分布的概念、方法与用途 搜集到数据后,欲了解其分布的范围、数据最集中的区间以及分布的形态,可通过编制 频数分布表来实现。 1. 频数分布表的编制 频数分布表(frequency table)用来表示一批数据各观察值 或在不同取值区间的出现的频繁程度(频数)。对于散布区间很大的连续型数据,数据散布 区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 例 3-1 某班 52 名学生在一项拼写测验中的成绩如下,试编制频数表和观察频数分布情 况。 59 36 28 56 36 27 52 36 27 50 35 25 47 35 24 46 34 22 44 34 22 43 33 21 43 32 21 42 32 20 42 32 17 40 31 37 39 31 38 31 36 27 38 30 30 38 37 29 29 37 50 17 频数表的编制步骤:

(1)求极差:极差(range),又称为全距,即最大值与最小值之差,记作R。如本例R=59-17=42;(2)确定分组数和组距:根据研究目的和样本含量n确定分组数,一般不应少于5组,也不应多于15组。当样本容量小于125时,分为/n组比较合适。组数太少,数据过于集中:组数太多,数据过于分散。通常分为10~15个组。组距=极差/组数,为方便计,组距为极差的十分之一,再略加调整,一般取方便阅读和计算的数字。本例42/10=4.2~5:组距分组时,一定要遵循“不重不漏”的原则。“不重”是指一个数据只能出现在一组里:“不漏”是指每个数据都能分在某一组。(3)根据组距列出组段:每个组段的下限为L,上限为U,变量X值的归组统一定为L≤X<U,等于L的数值仍属于这组,等于U的数值属于下一组。起始组段和最后组段应分别包含全部变量值的最小值和最大值。如本例15~20~50~55~60;±±+(4)分组划记并统计频数:用划记法将所有数据归纳到各组段,得到各组段的频数,完成频数表。见表3-1。表 3-152名学生拼写测验中成绩的频数分布表频数,了分数组段相对频数(%)累积频数累积相对频数(%)(3)(1)(4)= (3) /N(5)=(3) +(6)=(5) / N2215~4.004.006820~11.0015.00725~1514.0029.001130~21.002650.00133935~25.0075.00640~11. 004586.0024745~4. 0090.0050~3506.0096.0055~6024.0052100.00频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。2.频数分布图为了更直观、更形象地表达一个频数分布的结构形态及特征,我们可进一步根据频数分布表,绘制出相应的频数分布图。如根据表3-1资料,以各段分数为横坐标,频数f为纵坐标,可绘制频数分布图(graphoffrequencydistribution),如图3-1。3

3 (1)求极差:极差(range),又称为全距,即最大值与最小值之差,记作 R。如本例 R =59 – 17 =42; (2)确定分组数和组距:根据研究目的和样本含量 n 确定分组数,一般不应少于 5 组, 也不应多于 15 组。当样本容量小于 125 时,分为 n 组比较合适。组数太少,数据过于集 中;组数太多,数据过于分散。通常分为 10~15 个组。组距=极差/组数,为方便计,组距 为极差的十分之一,再略加调整,一般取方便阅读和计算的数字。本例 42/10=4.2 ≈5 ; 组距分组时,一定要遵循“不重不漏”的原则。“不重”是指一个数据只能出现在一组 里;“不漏”是指每个数据都能分在某一组。 (3)根据组距列出组段:每个组段的下限为 L,上限为 U,变量 X 值的归组统一定为 L ≤X<U,等于 L 的数值仍属于这组,等于 U 的数值属于下一组。起始组段和最后组段应分别 包含全部变量值的最小值和最大值。如本例 15~ 20~ . 50~ 55~60; (4)分组划记并统计频数:用划记法将所有数据归纳到各组段,得到各组段的频数, 完成频数表。见表 3-1。 表 3-1 52 名学生拼写测验中成绩的频数分布表 分数组段 频数, f 相对频数(%) 累积频数 累积相对频数(%) (1) (3) (4)= (3)/N (5)=(3)↓ (6)=(5)/N 15~ 2 4.00 2 4.00 20~ 6 11.00 8 15.00 25~ 7 14.00 15 29.00 30~ 11 21.00 26 50.00 35~ 13 25.00 39 75.00 40~ 6 11.00 45 86.00 45~ 2 4.00 47 90.00 50~ 3 6.00 50 96.00 55~60 2 4.00 52 100.00 频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现 某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。 2. 频数分布图 为了更直观、更形象地表达一个频数分布的结构形态及特征,我们可 进一步根据频数分布表,绘制出相应的频数分布图。如根据表 3-1 资料,以各段分数为横坐 标,频数 f 为纵坐标,可绘制频数分布图(graph of frequency distribution),如图 3-1

次数1412108620(5)12172227323742475257测验分数图3-152名学生拼写测验中成绩的频数分布图除了直方图之外,频数分布有时用频数多边形来图示,频数多边图是利用闭合的折线构成多边形以反映次数变化情况的一种图示方法。其绘制法与直方图基本类似,不同之处在于:在每组中点垂线与该组次数相交处画点,连接各点便形成一多边形。上述图3-1也可绘制成频数多边图如下图3-2所示。次4414121086420(5)12172227323742475257分数图3-252名学生拼写测验成绩的频数多边图如上所示,当一列数据的个数不是很多时,所绘制的频数多边图常表现为不规则的多边形。从理论上说,当一列数据的个数足够大时,随着分组时组距的不断变小,绘制成的频数多边图会越来越光滑,若分为无数组时,就形成一条极其光滑的曲线,这种曲线在统计学上4

4 (5) 12 17 22 27 32 37 42 47 52 57 测验分数 14 1 2 1 0 8 6 4 2 0 次 数 f 图 3-1 52 名学生拼写测验中成绩的频数分布图 除了直方图之外,频数分布有时用频数多边形来图示,频数多边图是利用闭合的折线构 成多边形以反映次数变化情况的一种图示方法。其绘制法与直方图基本类似,不同之处在于: 在每组中点垂线与该组次数相交处画点,连接各点便形成一多边形。上述图 3-1 也可绘制成 频数多边图如下图 3-2 所示。 14 1 2 1 0 8 6 4 2 0 (5) 12 17 22 27 32 37 42 47 52 57 分数 次 数 图 3-2 52 名学生拼写测验成绩的频数多边图 如上所示,当一列数据的个数不是很多时,所绘制的频数多边图常表现为不规则的多边 形。从理论上说,当一列数据的个数足够大时,随着分组时组距的不断变小,绘制成的频数 多边图会越来越光滑,若分为无数组时,就形成一条极其光滑的曲线,这种曲线在统计学上

称为频数分布曲线,如人的总体智力分布就可抽象为一条正态曲线。总之,频数表和频数分布图在对资料的整理过程中,主要起到先期统计性描述作用,可以描述频数分布的类型是对称分布抑或是偏态分布:描述频数分布的特征,了解数据变异(离散)的范围和数据集中(平均)的组段;而且还便于发现一些特大或特小的可疑值,也有助于进一步做统计分析和处理。第二节集中趋势的描述在心理学研究实践中,当我们借助一定的测量工具对某一研究对象进行观测,得到有关这一研究对象某一方面属性的数量化表述即变量时,经过对数据的初步整理,对这些变量进行表列和图示,可以对其分布特征有一直观而形象的概要了解。但这显然远远不够,我们还常需对这批变量所蕴含的规律性做更进一步的推论和更精确的了解。为此,我们需要计算出一些有代表性的数据,对变量所蕴含的规律性作更简洁明了的数量化描述,对其频数分布的特征作更精确的定量描述。在实验、测量或调查中获得的大量观测数据,具有一种向数据中央某一点靠拢的趋势,这种趋势在统计学上称为集中趋势(centraltendency),它是数据分布的特征之一。统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平,但常因资料的不同而选取不同的指标进行描述。常用的平均数有:算术均数(均数)(mean),几何均数(geometricmean),中位数(median)与百分位数(percentile)等。一、算术均数1.算术均数的定义算术均数(arithmeticmean)是所有观测值(或变量值)的总和除以总个数所得的商,简称均数(mean),可用于描述一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。总体均数用μ表示,样本均数用表示。2.算术均数的计算方法:(1)定义式:即根据算术均数的定义直接用原始观测值进行计算而得。其公式为X_X+X,++x.-ZxNn(3-1)式中X为各观察值,n为样本含量,Z为求和的符号。例3-2某项研究在五年级学生总体中抽取30个样本,测得他们的某项能力考试分数如下60,71,63,58,50,75,64,73,72,64,52,65,67,76,72,70,58,50,80,51,79,81,77,69,67,61,48,50,54,55,用直接法计算他们的平均能力分数:解:根据3-1式X_ 60+71+552=64.430得出其平均能力分数为64.4。(2)加权法:在定义式中各个观察值的次数或系数均为1,即各个参与计算均数的观测5

5 称为频数分布曲线,如人的总体智力分布就可抽象为一条正态曲线。 总之,频数表和频数分布图在对资料的整理过程中,主要起到先期统计性描述作用,可 以描述频数分布的类型是对称分布抑或是偏态分布;描述频数分布的特征,了解数据变异(离 散)的范围和数据集中(平均)的组段;而且还便于发现一些特大或特小的可疑值,也有助 于进一步做统计分析和处理。 第二节 集中趋势的描述 在心理学研究实践中,当我们借助一定的测量工具对某一研究对象进行观测,得到有 关这一研究对象某一方面属性的数量化表述即变量时,经过对数据的初步整理,对这些变量 进行表列和图示,可以对其分布特征有一直观而形象的概要了解。但这显然远远不够,我们 还常需对这批变量所蕴含的规律性做更进一步的推论和更精确的了解。为此,我们需要计算 出一些有代表性的数据,对变量所蕴含的规律性作更简洁明了的数量化描述,对其频数分布 的特征作更精确的定量描述。 在实验、测量或调查中获得的大量观测数据,具有一种向数据中央某一点靠拢的趋势, 这种趋势在统计学上称为集中趋势(central tendency),它是数据分布的特征之一。统计 上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平,但常因 资料的不同而选取不同的指标进行描述。 常用的平均数有:算术均数(均数)(mean),几何均数(geometric mean),中位数 (median)与百分位数(percentile)等。 一、算 术 均 数 1. 算术均数的定义 算术均数(arithmetic mean)是所有观测值(或变量值)的总和 除以总个数所得的商,简称均数(mean),可用于描述一组呈对称分布的变量值在数量上的 平均水平或者说是集中位置的特征值。总体均数用μ表示,样本均数用 表示。 2. 算术均数的计算方法: (1)定义式:即根据算术均数的定义直接用原始观测值进行计算而得。其公式为 1 2 X X X X N n + + = = .+X n  (3-1) 式中 X 为各观察值,n 为样本含量,∑为求和的符号。 例 3-2 某项研究在五年级学生总体中抽取 30 个样本,测得他们的某项能力考试分数如 下:60,71,63,58,50,75,64,73,72,64,52,65,67,76,72,70,58,50,80, 51,79,81,77,69,67,61,48,50,54,55,用直接法计算他们的平均能力分数: 解:根据 3-1 式 60 71 X 64.4 + + = = .+55 30 得出其平均能力分数为 64.4。 (2)加权法:在定义式中各个观察值的次数或系数均为 1,即各个参与计算均数的观测

值的重要性程度是被视为同等重要的。然而,在实际工作中对各个观测值平等看待并不一定完全合理。尤其在心理与教育研究中,如在学校中各门功课中有作业成绩、单元测验、期中测验、期末考试等,在计算和评价个体的学期成绩时并非将这几项成绩简单相加并除以4,而是根据各种成绩的重要性程度不同,规定不同的比例,从而表示它们的重要性不一样,也就是要考虑加权的问题。用比例、次数等来权衡各个观测值重要性程度而计算出的平均数称为加权平均数(weightedmean),简称加权式。同样,如果我们手中没有原始测量值,原始测量值已被整理成频数分布表呈现给我们时,我们也可在频数表基础上求加权平均数。我们假定一个组里的数据资料是均匀分布在组中值周围的,因此可以假设组里的每一个数据都等于组中值,然后根据每个组的数据个数(频数)求出每组数据值的总和,再求出总平均数。其计算公式为:X-X+x+fx+fxEXZff+f+f,+"fk(3-2)其中k表示频数表组段数,X为各组段的组中值,f为各组段的频数。频数在这里起到了“权”(weight)的作用,即某个组段频数多,权数就大,其组中值对均数的影响也大;反之,影响则小。例3-3甲班有50人,数学测验的平均分数为80分,乙班有40人,数学测验的平均分数为70分,丙班有60人,数学测验的平均分数为90分,求这三个班数学测验的总平均分数。解:_80×50+70×40+90×60=81.3N50+40+60这三个班数学测验的总平均分数为81.3。均数适用于对称分布,特别是正态分布资料。二、中位数1.中位数的定义中位数(median)简称中数,用符号Mdn或Md表示,是指位于按一定顺序排列的一组数的中央位置的数值,即将一组观察值由小到大排列,n为奇数时取位次居中的变量值:n为偶数时,取位次居中的两个变量的平均值。中位数是描述资料集中趋势的指标之一,在教育与心理统计实践中,当一组观测数据中出现极端数据时,或一组数据的两端有模糊数据出现,此时不能用算术均数作为这组数据的代表值,而应求中位数。2.中位数的直接计算方法M= X(μl)(2)n为奇数时(3-3)17X.+XM=学“))(3-4)n为偶数时例2-4一项研究调查了19名中学教师,他们的月经济收入(单位:人民币元)如下:1200,1270,1300,1310,13201320,1350,1360,1370,1390,14001450,1460,1490,6

6 值的重要性程度是被视为同等重要的。然而,在实际工作中对各个观测值平等看待并不一定 完全合理。尤其在心理与教育研究中,如在学校中各门功课中有作业成绩、单元测验、期中 测验、期末考试等,在计算和评价个体的学期成绩时并非将这几项成绩简单相加并除以 4, 而是根据各种成绩的重要性程度不同,规定不同的比例,从而表示它们的重要性不一样,也 就是要考虑加权的问题。用比例、次数等来权衡各个观测值重要性程度而计算出的平均数称 为加权平均数(weighted mean),简称加权式。 同样,如果我们手中没有原始测量值,原始测量值已被整理成频数分布表呈现给我们时, 我们也可在频数表基础上求加权平均数。我们假定一个组里的数据资料是均匀分布在组中值 周围的,因此可以假设组里的每一个数据都等于组中值,然后根据每个组的数据个数(频数) 求出每组数据值的总和,再求出总平均数。其计算公式为: 1 1 2 2 3 3 1 2 3 k k k f X f X f X f X fX X f f f f f + + + = = + + +   . . (3-2) 其中 k 表示频数表组段数, X 为各组段的组中值, f 为各组段的频数。频数 f 在这里 起到了“权”(weight)的作用,即某个组段频数多,权数就大,其组中值对均数的影响也 大;反之,影响则小。 例 3-3 甲班有 50 人,数学测验的平均分数为 80 分,乙班有 40 人,数学测验的平均分 数为 70 分,丙班有 60 人,数学测验的平均分数为 90 分,求这三个班数学测验的总平均分 数。 解: 80 50 70 40+90 60 X 81.3 50 40 60 Xf N  +   = = = + +  这三个班数学测验的总平均分数为 81.3。 均数适用于对称分布,特别是正态分布资料。 二、中 位 数 1. 中位数的定义 中位数(median)简称中数,用符号 Mdn 或 Md 表示,是指位于按一 定顺序排列的一组数的中央位置的数值,即将一组观察值由小到大排列,n 为奇数时取位次 居中的变量值;n 为偶数时,取位次居中的两个变量的平均值。 中位数是描述资料集中趋势的指标之一,在教育与心理统计实践中,当一组观测数据中 出现极端数据时,或一组数据的两端有模糊数据出现,此时不能用算术均数作为这组数据的 代表值,而应求中位数。 2. 中位数的直接计算方法 n 为奇数时       + = 2 M X n 1 (3-3) n 为偶数时 ( ) ( 1) 2 2 1 2 M X X n n +   = +     (3-4) 例 2-4 一项研究调查了 19 名中学教师,他们的月经济收入(单位:人民币元)如下: 1200,1270,1300,1310,1320,1320,1350,1360,1370,1390,1400,1450,1460,1490

1530,1580,1600,3200,4000。欲了解他们的平均月经济收入。解由于这19名教师的收入中存在极端数据,其算术均数(为1626元)不能很好地反映他们的平均月收入(19人中有17人月收入低于1626元),故应求中位数。M=X,()=x10=1390根据式(3-3),中位数具有计算简单、不受极端数据的影响的特点,但由于中位数是根据数据的相对位置来确定的,在计算时不用每个数据都加入计算,从而有较大的抽样误差,不如算术均数稳定;且其难以做进一步的代数运算,故在多数情况下,中位数不如均数应用广泛。三、几何均数1.几何均数的定义几何均数(geometricmean)是用以描述对数正态分布或数据呈X.倍数变化资料的水平,记为8。在教育与心理统计实践中,当需要处理的数据有以下两种情形时,一般都用几何平均数来表示数据的集中趋势。(1)一组数据中任何两个相邻数据之比接近于常数,即数据按一定的比例关系变化。在教育与心理统计研究中,求平均增长率或对心理物理学中的等距与等比量表实验的数据处理均应使用几何平均数。(2)当一组数据中存在极端数据,分布呈偏态时,算术平均数不能很好地反映数据的典型情况,此时应使用几何平均数或其他集中量数(如中位数)来反映数据的典型情况。几何均数的计算公式为:> igXX,=xX,X,或X,=lg-"n(3-5)2.几何平均数在教育与心理研究中的应用(1)心理物理学中的等距与等比量表实验的数据处理例3-5一心理学工作者研究介于S1与S2两感觉之间的感觉的物理刺激是多少,随机抽取10名被试,让他们调节一个可变的物理量的刺激,使所产生的感觉恰好介于S1与S2之间,然后测试这个物理量,结果如下:5.7、6.2、6.7、6.9、7.5、8.0、7.6、10.0、15.6、18.0,求介于S1与S2两感觉之间的感觉的平均物理刺激量是多少?解:这是等距量表实验,应求其几何平均数X,/5.7×6.2xx18.0=8.55也可改用对数计算lg5.7+lg6.2++lg18.0)=lg-'0.9321=8.55X=lg"'(10(2)教育与心理研究中平均增长率的计算例3-6某市近几年来高中毕业生人数如下表3-2,试求其平均增长率:照此速度增长,到1995年统计有多少高中毕业生?表3-2某市近几年高中毕业生人数7

7 1530,1580,1600,3200,4000。欲了解他们的平均月经济收入。 解 由于这 19 名教师的收入中存在极端数据,其算术均数(为 1626 元)不能很好地反 映他们的平均月收入(19 人中有 17 人月收入低于 1626 元),故应求中位数。 根据式(3-3),       + = 2 M X n 1 =X10=1390 中位数具有计算简单、不受极端数据的影响的特点,但由于中位数是根据数据的相对位 置来确定的,在计算时不用每个数据都加入计算,从而有较大的抽样误差,不如算术均数稳 定;且其难以做进一步的代数运算,故在多数情况下,中位数不如均数应用广泛。 三、 几 何 均 数 1. 几何均数的定义 几何均数(geometric mean)是用以描述对数正态分布或数据呈 倍数变化资料的水平,记为 X g 。 在教育与心理统计实践中,当需要处理的数据有以下两种情形时,一般都用几何平均数 来表示数据的集中趋势。(1)一组数据中任何两个相邻数据之比接近于常数,即数据按一定 的比例关系变化。在教育与心理统计研究中,求平均增长率或对心理物理学中的等距与等比 量表实验的数据处理均应使用几何平均数。(2)当一组数据中存在极端数据,分布呈偏态时, 算术平均数不能很好地反映数据的典型情况,此时应使用几何平均数或其他集中量数(如中 位数)来反映数据的典型情况。 几何均数的计算公式为: 1 1 2 lg lg ( ) n g n g X X X X X X n − = = 或  (3-5) 2. 几何平均数在教育与心理研究中的应用 (1)心理物理学中的等距与等比量表实验的数据处理 例 3-5 一心理学工作者研究介于 S1 与 S2 两感觉之间的感觉的物理刺激是多少,随机 抽取 10 名被试,让他们调节一个可变的物理量的刺激,使所产生的感觉恰好介于 S1 与 S2 之间,然后测试这个物理量,结果如下:5.7、6.2、6.7、6.9、7.5、8.0、7.6、10.0、15.6、 18.0,求介于 S1 与 S2 两感觉之间的感觉的平均物理刺激量是多少? 解:这是等距量表实验,应求其几何平均数 10 5.7 6.2 18.0 8.55 X g =    = 也可改用对数计算 1 1 lg5.7 lg 6.2 lg18.0 lg ( ) lg 0.9321 8.55 10 X g − − + + + = = = (2)教育与心理研究中平均增长率的计算 例 3-6 某市近几年来高中毕业生人数如下表 3-2,试求其平均增长率;照此速度增长, 到 1995 年统计有多少高中毕业生? 表 3-2 某市近几年高中毕业生人数

年度学生人数变化率19872000(x1)19882200(x2)1.1000(x2/x1)19892430(x3)1.1045(x3/x2)19902600(x4)1.0700(x4/x3)19912880 (x5)1.1077(x5/x4)解:本题欲求平均增长率,即以1987年为基数,求以后4年的平均增长率。因此,这里参与求平均增长率的年数为n-1=4。用(3-5)式先求平均变化率X=4/1.1000x1.1045x1.0700x1.1077=1.0954从而平均增长率为1.0954-1.0000=0.0954由上求出的该市4年的高中毕业生平均变化率为1.0954,照此增长速度,四年后(1995)该市的高中毕业生预测为X=2880x(1.0954)t4147作为度量数据分布集中趋势的指标,均数、几何均数和中位数各有其特点、意义和应用场合。在实际应用中究竞选用哪种指标比较合适是由所研究问题本身和集中趋势各指标的特点所决定的。均数、几何均数和中位数的意义、优缺点及其应用场合比较见表2-3。表3-3常用平均数的比较均数几何均数中位数意义平均增(减)倍位次居中的观察平均数量水平。数。值水平。优点易计算,意义明意义明确,代表易计算,意义明确,代表性好,受抽性好,对偏态分布数确,代表性好,少受样变动的影响较小,据不易受极端值的影极端值的影响。响。便于进行加权处理,统计推断的结果更可靠稳定。应用场合等距与等比量表应用甚广,最适偏态分布:分布用于对称分布,特别实验资料:求平均增不明:分布末端无确定值。是正态分布。长率;对数正态分布。不足易受极端值的影计算麻烦;在使易受抽样偏差影响;组距不确定时无用上对变量值有着特响;难以做进一步的法计算。殊的前提。代数运算。四、百分位数和四分位数百分位数(percentile)是一种位置指标,用PX来表示。一个百分位数PX将全部变量值分为两部分,在不包含的全部变量值中有X%的变量值比它小,(100-X)%变量值比它大。故百分位数是一个界值,其重要用途是确定医学参考范围(medicalreferencerange),在教育测量和心理测量中用于百分量表的建立。8

8 年度 学生人数 变化率 1987 2000(x1) 1988 2200(x2) 1.1000(x2/x1) 1989 2430(x3) 1.1045(x3/x2) 1990 2600(x4) 1.0700(x4/x3) 1991 2880(x5) 1.1077(x5/x4) 解:本题欲求平均增长率,即以 1987 年为基数,求以后 4 年的平均增长率。因此,这 里参与求平均增长率的年数为 n-1=4。用(3-5)式先求平均变化率 4 1.1000 1.1045 1.0700 1.1077 1.0954 X g =    = 从而平均增长率为 1.0954 - 1.0000 = 0.0954 由上求出的该市 4 年的高中毕业生平均变化率为 1.0954,照此增长速度,四年后(1995) 该市的高中毕业生预测为 4 X =   2880 (1.0954) 4147 作为度量数据分布集中趋势的指标,均数、几何均数和中位数各有其特点、意义和应用 场合。在实际应用中究竟选用哪种指标比较合适是由所研究问题本身和集中趋势各指标的特 点所决定的。均数、几何均数和中位数的意义、优缺点及其应用场合比较见表 2-3。 表 3-3 常用平均数的比较 均数 几何均数 中位数 意义 平均数量水平。 平均增(减)倍 数。 位次居中的观察 值水平。 优点 易计算,意义明 确,代表性好,受抽 样变动的影响较小, 便于进行加权处理, 统计推断的结果更可 靠稳定。 意义明确,代表 性好,对偏态分布数 据不易受极端值的影 响。 易计算,意义明 确,代表性好,少受 极端值的影响。 应用场合 应用甚广,最适 用于对称分布,特别 是正态分布。 等距与等比量表 实验资料;求平均增 长率;对数正态分布。 偏态分布;分布 不明;分布末端无确 定值。 不足 易受极端值的影 响;组距不确定时无 法计算。 计算麻烦;在使 用上对变量值有着特 殊的前提。 易受抽样偏差影 响;难以做进一步的 代数运算。 四、百分位数和四分位数 百分位数(percentile)是一种位置指标,用 PX 来表示。一个百分位数 PX 将全部变 量值分为两部分,在不包含的全部变量值中有 X%的变量值比它小,(100-X)%变量值比它大。 故百分位数是一个界值,其重要用途是确定医学参考范围(medical reference range),在 教育测量和心理测量中用于百分量表的建立

中位数是一组数据中最居中间的数,实际上是第50百分位数,它是百分位数的特例之一。百分位数的另一特例是四分位数,即四分之一位置和四分之三位置上的数,也即第25百分位数和第75百分位数。1.直接计算法设有n个原始数据从小到大排列,第X百分位数的计算公式为当nX%为带有小数位时:P, = X(rmc(nx%)+1)(3-6)当nX%为整数时:P=X(n%) + X(n%+1)]2(3-7)式中trunc(a)表示对数字a舍去小数位数而取其整数。如trunc(6.3)=6。当x%=50%=0.5时,公式(3-6)、公式(3-7)即为中位数计算公式。第三节离散趋势的描述平均数(average)这一指标体系虽然能较好地描述一组数据的集中趋势,但它还不能代表一组数据分布的全貌。数据间还存在差异问题,数据间彼此差异的程度称作数据的离散趋势,它反映了数据分布的又一重要特性一一变异性。在教育与心理研究实践中,要想全面了解被研究对象(变量值)的数量特征,不仅需要描述数据平均水平的指标,而且还需要计算反映变异程度的指标。常用的变异指标有极差、四分位数间距、方差、标准差和变异系数。一、极差极差(range)亦称全距,即一组变量值最大值与最小值之差,用于资料的粗略分析其计算简便但仅利用了两端点值,稳定性较差。R= Xmax -Xmin(3-8)例如假设有三组数据,甲组为9,11,12,13,14,14,15,16,乙组为7,10,10,12,14,15,16,20丙组为4,5,6,8,12,15,21,33,三组数据的均数都为13,但甲组数据的R=16-9=7,乙组数据的R=20-7=13,内组数据的R=33-4=29,,比较以上三组数据,虽然均数相等,但极差却不同,甲组极差最小,丙组极差最大,说明三组数据的变异程度不同。但仅用极差来描述数据的变异程度也不全面。极差不能反映所有数据的变异大小,且受样本含量n的影响较大。一般来说,n大,R也大,即使在n不变的情况下,每次抽样得到的极差值相差也大,故其稳定性较差。因此在统计分析中很少用全距作为离散趋势的指标,一般只在非常简单地报告数据分散程度时才用。二、方差与标准差方差(variance)和标准差(standarddeviation)不仅是统计分析中基本的概念体系,9

9 中位数是一组数据中最居中间的数,实际上是第 50 百分位数,它是百分位数的特例之 一。百分位数的另一特例是四分位数,即四分之一位置和四分之三位置上的数,也即第 25 百分位数和第 75 百分位数。 1. 直接计算法 设有 n 个原始数据从小到大排列,第 X 百分位数的计算公式为: 当 nX%为带有小数位时: P X x trunc nX [ ( %) 1] + = (3-6) 当 nX%为 整数时: ( %) ( % 1) 1 [ ] 2 P X X x nX nX = + + (3-7) 式中 trunc(a)表示对数字 a 舍去小数位数而取其整数。如 trunc(6.3)=6。当 X%=50%=0.5 时,公式(3-6)、公式(3-7)即为中位数计算公式。 第三节 离散趋势的描述 平均数(average)这一指标体系虽然能较好地描述一组数据的集中趋势,但它还不能 代表一组数据分布的全貌。数据间还存在差异问题,数据间彼此差异的程度称作数据的离散 趋势,它反映了数据分布的又一重要特性——变异性。在教育与心理研究实践中,要想全面 了解被研究对象(变量值)的数量特征,不仅需要描述数据平均水平的指标,而且还需要计 算反映变异程度的指标。常用的变异指标有极差、四分位数间距、方差、标准差和变异系数。 一、极 差 极差(range)亦称全距,即一组变量值最大值与最小值之差,用于资料的粗略分析, 其计算简便但仅利用了两端点值,稳定性较差。 R = X max − X min (3-8) 例如假设有三组数据,甲组为 9,11,12,13,14,14,15,16,乙组为 7,10,10, 12,14,15,16,20 丙组为 4,5,6,8,12,15,21,33,三组数据的均数都为 13,但甲 组数据的 R=16-9=7,乙组数据的 R=20-7=13,丙组数据的 R=33-4=29,比较以上三 组数据,虽然均数相等,但极差却不同,甲组极差最小,丙组极差最大,说明三组数据的变 异程度不同。但仅用极差来描述数据的变异程度也不全面。极差不能反映所有数据的变异大 小,且受样本含量 n 的影响较大。一般来说,n 大,R 也大,即使在 n 不变的情况下,每次 抽样得到的极差值相差也大,故其稳定性较差。因此在统计分析中很少用全距作为离散趋势 的指标,一般只在非常简单地报告数据分散程度时才用。 二、方 差 与 标 准 差 方差(variance)和标准差(standard deviation)不仅是统计分析中基本的概念体系

而且也是基本的方法体系,大部分统计方法都涉及方差与标准差的运用。方差也称均方差(meansquaredeviation),反映一组数据的平均离散水平。就数据离散趋势或变异情况分析而言,应该考虑其每一个变量值X与均数μ的差值,即离均差,然后将这些差值相加,即离均差和,用公式表示为:(x-μ)。由于X-μ有正有负,使得离均差和(x-)三0,故离均差和无法在实际中应用。解决方法是将离均差X-u平方:消除正负值的影响后再相加,用公式表示为:Z(x-μ)2,此为离均差平方和(sumof squaresdeviationsfrommean,SS)。但离均差平方和尚未考虑到变量值个数N的影响,即N大,Z(x-u)2也大。为了解决这一问题,将离均差平方和除以N,就得到了方差。总体方差用2表示,其计算公式为:o_E(x-n)N(3-9)显然,这里的α2是以总体作为研究对象,通过对被研究总体所含的N个元素进行全面观测而计算得到的。同样对样本平均数的研究一样,实际研究中往往只能对其样本进行研究,从而得到有关这一研究对象的样本统计特征,即为样本统计量。一般情况下,总体均数μ未知,需用样本均数X估计。数理统计证明:若用样本的变量值个数n代替N,计算出的样本方差对o2的估计偏小,需将n用n-1代替。样本方差记为S2,其计算公式为:S"_E(X-X)n-1(3-10)标准差是方差的正平方根,样本标准差S的计算公式为:zx2_(x)(x -X)*11S=Vn-1Vn-1(3-11)例3-7对下例10个数据:75,76,72,69,66,72,57,68,71,72,用直接法计算标准差。解:n=10,ZX=75+76+...+72=698,ZX2=752+762+...+722=4898448984-698/102=5.41(次/分)S=10-1方差和标准差是表示一组数据离散程度的最好指标。其值越大,说明频数分布的离散程度越大;其值越小,说明频数分布的数据比较集中,离散程度越小,其均数的代表性越好。方差和标准差具有反应灵敏,计算严密,受抽样变动的影响较小,在统计实践中,人们常将其与平均数一起来描述一组数据的全貌。此外,方差具有可加性,它是一组数据中各种变异的总和。统计实践中常利用方差的可加性分解并确定属于不同来源的变异性,并进一步说明各种变异对总结果的影响。三、变异系数标准差反映了一组数据的离散程度,当对同一个特质使用同一种测量工具进行测量,所测样本水平比较接近时,简单比较标准差的大小即可。但在教育与心理研究实践中,我们常遇到以下情况:两个或两个以上样本所测的特质不同,如非同一学科:或者两个或两个以上样本所测的特质相同,但样本间的水平相差较大。这时就不能用绝对差异量来比较不同样本的离散程度,而应使用相对差异量数。10

10 而且也是基本的方法体系,大部分统计方法都涉及方差与标准差的运用。 方差也称均方差(mean square deviation),反映一组数据的平均离散水平。就数据离 散趋势或变异情况分析而言,应该考虑其每一个变量值 X 与均数 µ 的差值,即离均差,然后 将这些差值相加,即离均差和,用公式表示为:∑(x-µ)。由于 X-µ 有正有负,使得离均差 和∑(x-µ)=0,故离均差和无法在实际中应用。解决方法是将离均差 X-µ 平方,消除正负 值的影响后再相加,用公式表示为: ∑(x-µ)2,此为离均差平方和(sum of squares deviations from mean,SS)。但离 均差平方和尚未考虑到变量值个数 N 的影响,即 N 大,∑(x-µ)2 也大。为了解决这一问 题,将离均差平方和除以 N,就得到了方差。总体方差用σ2 表示,其计算公式为: 2 2 ( ) X N   − =  (3-9) 显然,这里的σ2 是以总体作为研究对象,通过对被研究总体所含的 N 个元素进行全面 观测而计算得到的。同样对样本平均数的研究一样,实际研究中往往只能对其样本进行研究, 从而得到有关这一研究对象的样本统计特征,即为样本统计量。一般情况下,总体均数 µ 未知,需用样本均数 估计。数理统计证明:若用样本的变量值个数 n 代替 N,计算出的 样本方差对σ2 的估计偏小,需将 n 用 n-1 代替。样本方差记为 S2,其计算公式为: 2 2 ( ) 1 X X S n − = −  (3-10) 标准差是方差的正平方根,样本标准差 S 的计算公式为: ( ) 2 2 2 ( ) 1 1 X X X X n S n n   −  − = = − − (3-11) 例 3-7 对下例 10 个数据: 75,76,72,69,66,72,57,68,71,72, 用直接法计算标准差。 解:n = 10,∑X = 75+76+ . +72 = 698, ∑X2 = 752+762+ . +722 = 48984 2 48984 698 /10 5.41( ) 10 1 S − = = − 次/分 方差和标准差是表示一组数据离散程度的最好指标。其值越大,说明频数分布的离散程 度越大;其值越小,说明频数分布的数据比较集中,离散程度越小,其均数的代表性越好。 方差和标准差具有反应灵敏,计算严密,受抽样变动的影响较小,在统计实践中,人们常将 其与平均数一起来描述一组数据的全貌。此外,方差具有可加性,它是一组数据中各种变异 的总和。统计实践中常利用方差的可加性分解并确定属于不同来源的变异性,并进一步说明 各种变异对总结果的影响。 三、 变 异 系 数 标准差反映了一组数据的离散程度,当对同一个特质使用同一种测量工具进行测量,所 测样本水平比较接近时,简单比较标准差的大小即可。但在教育与心理研究实践中,我们常 遇到以下情况:两个或两个以上样本所测的特质不同,如非同一学科;或者两个或两个以上 样本所测的特质相同,但样本间的水平相差较大。这时就不能用绝对差异量来比较不同样本 的离散程度,而应使用相对差异量数

共14页,试读已结束,阅读完整版请下载
刷新页面下载完整文档
VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
注册用户24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
相关文档