第八章数值变量资料的统计描述（一）.doc

上传人：星星

文档编号：1038980

上传时间：2024-03-28

格式：DOC

页数：16

大小：561.89KB

《第八章数值变量资料的统计描述（一）.doc》由会员分享，可在线阅读，更多相关《第八章数值变量资料的统计描述（一）.doc（16页珍藏版）》请在沃文网上搜索。

1、数值变量资料的统计描述课时：6学时，其中理论4学时实习2学时授课对象：临床医学本科目的要求：1. 掌握数值变量资料主要描述性指标的定义、应用条件和计算方法。2. 熟悉标准差的应用、正态分布的特征、牢记正态曲线下面积的分布规律。3. 了解制定医学参考值范围的步骤和方法。重点：主要描述性指标的定义、计算和应用，标准差的意义及应用。难点：正态分布特征及面积分布规律的应用。教学方式：讲授、讨论学时安排：组织教学22分钟，复习旧课32分钟，讲授新课752分钟，讨论答疑15分钟、小结5分钟，实习90分钟。理论教学内容如下：对数值变量资料进行统计描述，需要根据资料的分布类型选择合适的统计指标，

2、因此，首先我们要通过频数分布表或分布图来了解资料的分布特征。第一节数值变量资料的频数分布一、频数分布表及其制作什么叫频数（frequency）？频数是指在对一组研究对象进行观察时，某变量或指标数值出现的次数。我们可以将各变量值及其出现的频数编制频数分布表，以此反应各变量值与其频数之间的关系，并观察资料的分布类型。现利用例8.1 的资料来说明编制频数分布表的步骤。1.求全距（极差）：= 最大值最小值5.593.601.99（mmol/L）2.确定组数、组段和组距根据样本含量多少确定组段数，一般设813个组段，100例以上取10个左右，例数较少可相应减少组段数。相邻两组段下限之差称为组距

3、（），一般都用等距，且用“极差组段数”之商最接近的整数值作为组距，本例若分为10个组段，则/1.99/100.199（mmol/L）, 取整0.2，便于汇总和计算。各组段的的起点和终点分别称为下限和上限。注意的是：第一组段应包括最小值，下限取3.60mmol/L，最末组段应包括最大值，略大于或等于最大值。即取5.60mmol/L。3.列出频数表组段确定后，将原始数据用划计法或计算机做出频数分布表，可得到各组段的频数、频率和累积频率，见表81。二、频数分布的特征由频数表可看出分布的两个重要特征，集中趋势,空腹血糖测定值虽然高低不等，但向中间集中，中等水平（4.604.80 mmol/L）的人数

4、最多；离散趋势，即随着血糖值逐渐变大或变小，人数越来越少，向两端分散。由此知道资料的分布类型，频数分布有对称分布和偏态分布之分。对称分布是指集中位置在正中，左右两侧频数分布大致对称，这种分布统计学上称为正态分布或近似正态分布。如表81所示，若绘制成直方图更为直观清楚。偏态分布是指频数分布不对称，集中位置偏向一侧，若偏向数值小的一侧正偏态，如食物中毒潜伏期的分布集中位置偏向数值大的一侧负偏态分布，如冠心病，大多恶性肿瘤患者的年龄分布都呈负偏态分布。不同的分布选用不同的统计分析方法。第一节集中趋势指标统计分析包括统计描述和统计推断两部分，统计描述是用统计指标、统计表和统计图来描述资料分布规律及数

5、量特征；统计推断则包括总体参数估计和假设检验两个内容。平均数（average）是一类描述数值变量资料集中趋势的指标。这类指标不但能给人一个简明概括的印象，而且还便于进行事物间的分析比较。医学统计上常用的集中趋势指标有、G、M，它们用于描述一组同质数值变量资料的平均水平或集中趋势。一、算术均数简称均数，它是一组已知性质相同的数值之和除以数值个数所得的商。常用表示样本均数，表示总体均数，适用于呈对称分布，尤其是正态分布或进似正态分布的数值变量数据资料。其计算方法有直接法，加权法、简捷法三种，随着计算机的普及，简捷法将被逐渐淘汰。（一）直接法当观察例数不多，如小于30时，或观察例数虽然很多，

6、但有计算机及统计软件，宜选择此法，公式：（8.1）例8.2 测定5名健康人第一小时末血沉，分别是6，3，2，9，10mm，试求均数。将5人血沉值代入公式81，得（二）加权法当观察值个数较多时，可先将各观察值分组归纳成频数表，用加权法求其均数。将数据编制成频数表，得出每组的频数，计算各组的组中值，。公式：（8.2）式中，分别为各组段的频数，，分别为各组段的组中值。式中频数（又称作权数）与组中值之乘积，近似等于该组变量值之和；各组中值与权数之乘积的总和，视为所有变量值的总和；总和除以总频数的商，作为全部观察值的均数。由此可见，各组的权数越大，权数与组中值乘积越大，作用也越大；反之权数越

7、小，作用也小，这就是该法被称为加权法的由来。某地2002年5558岁健康成人空腹血糖平均数、标准差加数法，简捷法计算表组段频数f组中值xfxfx2缩减值dfdfd2=3.633.711.141.07515753.833.911.745.63412484.084.132.8134.48324 121724.2234.398.9425.27246924.4244.5108.0486.00124244.6254.7117.5552.250004.8204.998.0480.20120205.0125.161.2312.12224 90485.2105.353.0280.90330905.65.64

8、5.522.0121.0041664合计132（）614.2（）2878.92()31（）533() 缩减值将表中数据代入公式（8.2），得（mmol/L）当变量值个数较多，同时数值又较大时，可在加权法的基础上，进一步简化为简捷法计算均数。（手工计算使用）（三）简捷法：公式：：假定均数，：各缩减值与相应频数乘积之总和，：总频数，：组距。仍以上述例子，在加数法计算表的基础上加上两栏，即增加、求得=31 =132 =0.2 代入公式：（mmol/L）与加权法计算结果相同。二、几何均数用“G”表示，适用于：变量等比数列分组的资料，如血清抗体滴度，血清凝集效价等。变量呈正偏态分布，但数据经对

9、数变换后呈正态分布或近似对数正态分布的资料。如在医学实践中某些疾病的潜伏期，必需微量元素的含量等。计算方法有：（一）直接法用于变量值个数不多时，可直接将各变量代入公式求得：公式：（8.3）两边取常用对数：再取反对数：（8.4）例8.3 5人的血清滴度分别是1:2，1:4，1:8，1:16，1:32，求其平均滴度。将其数据代入公式： (7.9983)该5人血清平均滴度为1:8（二）加权法用于变量值较多或频数表资料时，公式为：（8.5）为各组段的效价或滴度的倒数或各组段的组中值（对数正态分布资料）。为各组段对应的频数例8.4 有60人血清抗体效价，分别为：7人1：5，11人1：10，2

10、2人1：20，12人1：40，8人1：80，试求其平均抗体滴度。将各抗体效价的倒数代入公式（8.5）得 50人的血清平均抗体效价为1：20.705。（三）简捷法公式：：假定几何均数G的对数值：对数组距，即变量值的对数值的组距。：各缩减值与相应频数乘积之总和。例，见表8-2资料本例 0.301 30名易感儿童免疫后的平均血液抑制抗体滴度为1:48.5。两种方法结果一致。表82 抗体平均滴度加权数、简捷法计算表抗体滴度人数滴度倒数缩减值（1）（2）（3）（4）（5）1:8280.90311.8062361:166161.20417.2246212 231:325321.50517.5255151

11、:6410641.80618.0620001:1284122.10728.4288141:25622562.40824.816424 111:51215122.70932.709333合计3050.5728() 12三、中位数（median）中位数是一组由小到大排列的观察值中位次居中的数值用M表示。它常用于描述偏态分布或分布不明资料的中心位置，中位数不受个别特小或特大观察值的影响，特别是分布末端无确定数据不能求均数和几何均数，但可求中位数。其计算方法有直接法和频数表法。1直接法当较小时，先将观察值由小到大排列，为奇数时，位置居中的观察值即为中位数M；为偶数时，位置居中的两个观察值的平均数即为

12、M。2频数表法当n较大时，先编频数表，然后再按以下公式计算中位数。（8.6）：为中位数（即累计频率为50%）所在组段的下限：为组距：为中位数所在组段的频数：为小L的各组段的累计频数：为总例数例8.5 求表83中数据的中位数。由表83可见，中位数所在组段在12组段内表83 某传染性疾病者潜伏期的中位数和Px计算表潜伏期（h）人数（f）累计频数累计频率（%）（1）（2）（3）（4）=（3）/n2262623.634487467.276259990.008610595.4510310898.18122110100.00本例 =4 =48 =12 =26 =110 代入公式：（天）四、百分位

13、数（percentile）百分位数是一个位置指标，它是把一组数据从小到大排列，分割成100等分，每等份含1的观察值，分割限上的值就是百分位数，用符号表示。取任意一个百分位数可将全部数据分成左右两部分，有（100）%的数值大于，有%的数值小于。中位数是第50百分位数，用P50表示。百分位数常用于描述一组偏态分布资料在某百分位置上的水平及确定偏态分布资料的医学参考值范围。第5、第25、第75、第95百分位数分别记为P5、P25、P75、P95。这些百分位数也可以作为反应离散趋势的指标使用，如P5与 P95之间的距离或 P25与 P75之间的距离。百分位数也是一个有序数列百等分的分割值，如25左侧的

14、累积频数占总数的25%，右侧占75%。50是一个特定的百分位数。百分位数的计算原理与中位数完全相同，计算公式为：（7.7）式中分别为所在组段的下限，组距和频数，为小于的各组段的累计频数。例8.6 现仍以83表数据为例，求25，P75，P95 。（天）（天）（天）同理可求（天）中位数与百分位数的应用（补充）1中位数与均数、几何均数的作用相同，都能反映一组数据的趋中位置或平均水平，由于中位数的确定仅取决于它在数据序列中的位置，而不是由全部观察值综合计算出来的。因此不受少数特大或特小值的影响，在这一点上优于均数。一般来说，在频数分布呈明显偏态（观察值间相差比较大），或频数分布的两端无确定数

15、值时，使用中位数作为趋中位置或平均水平较为合理，当变量呈对称分布时，理论上中位数和均数相同，但对于样本资料来说，由于计算均数时利用了所有的观察值，所以较中位数稳定。另外中位数有一个很大的缺点，即不便于作统计运算，如根据两组资料的不同中位数无法算出合并的中位数，因此在统计分析中，中位数的用途不如均数那样广泛。2百分位数可用来描述资料的观察值序列在某百分位置的水平，中位数是其中的一个特例。多个百分位数结合使用常可以用来说明某一特定的问题，如用25及75描述资料的分散程度，用2.5及97.5规定医学95%的参考值范围，在研究青少年生长发育时用5、25、75、95划分等级。百分位数可用于任何频数分布的

16、资料，但靠近两端的百分位数只在样本例数比较大时才比较稳定（如100）。第二节离散趋势指标数值变量数据的频数分布有两个重要特征：集中趋势和离散趋势。必须指出，要把两者结合起来才能全面地反映数据频数分布的基本特征。描述变异程度的常用指标有全距，四分位数间距、方差，标准差以及变异系数。其中最常用的是方差和标准差。一、全距（range）亦称极差，用表示，是一组观察值中最大值与最小值之差，反映个体变异的范围。全距大，说明变异程度大。全距小说明变异度小。全距适合任何分布的数值变量资料（末端距无确切数值数值资料除外）可用于说明传染病、食物中毒的潜伏期。用全距描述资料变异度的大小，虽然简单明了，但它只考虑了

17、最大值和最小值，不能反映组内其它数据的变异度，易受个别值的影响（特大值和特小值）稳定性较差，抽样误差较大，而且还受的影响，平均起来，越大，越大。二、四分位数间距（guartile interval）四分位数间距是两个特定的百分数之差，用Q表示.即上四分位数QU（75）和下四分位数QL（25）之差。其值越大，说明变异程度越大。常用于描述偏态分布的资料的离散程度。特别是分布末端无确切数据不能计算全距、方差和标准差的资料。其计算公式为例8.7 求表8.3中数据的四分位数间距（天）三、方差（Variance）和标准差（standard deviation）1方差为克服全距和四分位数间距的缺点，

18、就必须全面考虑到每一个观察值。就总体而言，离散程度能否用总体中每个观察值与总体均数之差的总和（X）来反映资料的离散程度呢？可以明显的看出（X）=0，不能反映变异程度的大小。若将离均差平方后再相加即离均差平方和（X）2）则不为0，但又受到观察例数多少的影响，为了消除这一影响，可取离均差平方和的均数，简称方差或均方。总体方差用2表示，公式为：（8.8）在实际工作中，往往得到的是样本资料，总体均数是未知的，所以只能用样本均数作为的估计值，用（）2代替（X）2，用样本例数代替，但所得结果常常小于总体2。英国统计学家W.S. Gosset提出用样本例数减去1（1）代替来进行校正，所求得样本方差更接近

19、总体方差，使得样本方差成为总体方差的无偏估计值。样本方差用S2表示，其公式为：（8.9）式中1称为自由度（degree of freedom）方差愈小，说明各变量值的变异程度愈小，反之方差越大，变异越大。2标准差由于方差的度量单位是原度量单位的平方单位了，导致计算结果难以解释。为了还原成原来的度量单位，故将方差开平方，得到标准差。总体标准差用表示，样本标准差用S表示，于是：（8.10）（8.11）数学上可证明离均差平方和，于是标准差的计算公式可改写为：直接法：（8.12）加权法：简捷法：方差与标准差适用于对称分布，特别是正态或近似正态分布资料。标准差的计算方法：1）直接法较小时

20、例如有5名小学生体重测量资料分别为26 28 30 32 34kg，计算标准差 =5，=26+28+30+32+34 =150，=262+282+302+322+342 = 4540，将数值代入8.12 （kg）2）加权法以表8-2资料为例，求132名健康成人空腹血糖值的标准差。132，614.2，2878.92，代入公式（8.10）得3）简捷法 132，31，533 i0.2（mmol/l）标准差的意义和用途：说明一组资料的离散趋势或变异程度在两组（或几组）均数相近，单位相同的条件下，标准差大，表示观察值的变异度大，均数的代表性较差；反之，标准差小，则表示观察值变异度小，均数的代表性较好

21、。在科技论文报告中，均数与标准差经常被同时用来描述资料的集中和离散趋势计算变异系数 A.当两组比较资料单位不同时，不能直接用标准差来表示其离散趋势，只能用变异系数；B.单位相同，但均数相差较大时，用标准差也不太合理，用变异系数更好。结合均数描述频数分布的特征和估计医学参考值范围，见第三节。结合样本含量计算标准误，详见第八章。四、变异系数（coefficient of variation）变异系数用CV表示，它实际上是标准差的另一种表示方式，即将标准差转化为均数的倍数，以百分数的形式表示。计算公式为：（7.14）例8.9 某地调查110名20岁男大学生，其身高为172.73cm，S为4.09c

22、m，其体重为55.04kg，S为4.10kg，试比较两者变异程度。身高体重由此可见，该地20岁男大学生体重的变异度大于身高。第三节正态分布和医学参考值范围一、正态分布（normal disribution）（一）正态分布的概念正态分布是一种重要的连续型分布。我们将表8-1资料的频数分布制成直方图，见图8-2中的a，可见频数分布是以均数（4.653）为中心，左右两侧基本对称，靠近均数两侧频数较多，离均数越远，频数越少，形成一个中间多，两侧逐渐减少基本对称的分布，这种分布称为正态分布。当将样本含量扩大，组段分细，图中直条也将变窄，就会表现出中间高、两侧逐渐降低，并完全对称的特点图8-2b。将频

23、数分布图各直条顶端中点的连线，就逐渐接近于一条光滑的曲线如图8-2c所示，这就是著名的正态分布曲线，用N（）表示，其位置与均数有关，形状与标准差有关。标准差大，离散程度大，正态分布曲线则“胖”，反之则“瘦”。它是法国数学家高斯在研究偏差理论时首先发现的，所以也叫高斯分布曲线。医学研究中领域中有很多事物的频数分布都呈正态分布或近似正态分布，如正常人某些生理、生化指标值的频数分布（身高、脉搏、RBC数、血糖浓度等）；实验室对同一样品多次重复测定结果的频数分布；从正态或近似正态总体中抽取的样本均数的频数分布等。正态分布是数理统计中最基础的一种分布，很多统计推断都是在正态分布条件下进行的。其概率密度函

24、数为：（8.12）式中：称密度函数，是与自变量X 对应的正态曲线的纵轴高度，为总体均数，为总体标准差，为圆周率，即3.1416，为自然对数底，即2.71828。可见、均为常量，仅X为变量。因此，当已知、和变量值X时，以X为横轴，为纵轴，按公式（7.15）即可绘制出正态分布曲线的图形。图8-3 A。为了应用方便，对于任何一个均数和标准差分别与的正态分布，都可以通过变量的标准正态变换（）,使之成为标准正态分布，用N（0,1）表示。亦称分布。N（0,1）的概率密度函数为： + （8.13）式中为标准正态分布的密度函数，即纵轴高度。根据的不同取值，按公式（8.13）绘出标准正态分布的图形。见图8

25、-3b。（二）正态分布的特征由公式（8.12）、（8.13）可看出正态分布有下列五个方面的特征：正态曲线在横轴上方均数所在处最高（一个高峰）；正态分布以均数为中心，左右对称（一条对称轴）对称轴是直线，它经过曲线的最高点，公式（8.13）中为平方，故值无论正负，只要绝对值相等，则纵高相等，因此正态分布以均数为中心，左右对称。正态分布有两个参数，即均数与标准差（、），均数为位置参数，决定正态分布曲线所在位置，标准差为形状参数，决定正态分布曲线的胖和瘦，大，曲线为矮胖型，反之为高瘦型，标准正态分布的均数和标准差分别为0，1；（两个参数）正态曲线在1处各有一个拐点；正态曲线无论向左或向右延伸，都

26、愈来愈接近X轴，但不会与X轴相交, 公式8.13中，当时，0，所以正态分布曲线以X轴为渐近线。（一条渐近线）。正态曲线下的面积分布有一定的规律。二、正态曲线下面积的分布规律正态曲线下某区间的面积可以通过对公式（8.12）、（8.13）积分求得，为了省去计算的麻烦，统计学家已根据公式8.13求出了标准正态分布从到的面积，见附表81“标准正态分布曲线下的面积”。通过查表可求出曲线下某区间的面积，进而估计该区的观察例数占总例数的百分数或变量值落在该区间的概率。查表时应注意：表中曲线下面积为到的面积；当、已知时，先根据变换（即）求得值，再查表；当、未知且样本含量足够大时，可用样本均数和标准差代替分别

27、代替、进行变换（即（X-S）求得的估计值，再查表；曲线下对称于0的区间面积相等；曲线下横轴上的总面积为100或1。【如成年男子RBC数近似服从正态分布，均值4.781012/L标准差为0.381012/L，现想知道RBC数在41012/L以下所占的比例。可以先将= 41012/L，变换为相应的值。即于是问题化成了求标准正态分布值小于2.05的概率，查表71得（2.05）=0.0202，表明成年男子的RBC数低于41012/L的人约占总体的2%。若需要求出在41012/L5.51012/L范围内所占的比例可以通过下面简单计算获得= =1（1.89）（2.05） =（10.0294）0.0202

28、=0.9504 = 95.04% 】在实际工作中，正态分布曲线下三个区间的面积分布规律应用最多，请大家记住，并结合图83理解其意义。所有的正态分布曲线，在左右的任意一个标准差范围内面积相同，即： 1范围内的面积（或概率）约为68.27%1.96范围的面积（或概率）约为95.00%2.58范围内面积（或概率）约为99.00%三、医学参考值范围的估计（一）定义：医学参考值范围，传统上称正常值范围（normal range）指正常人的解剖、生理、生化、免疫等各种数据的波动范围。由于存在生物个体变异，每个正常人的测量值会有所不同，即使是同一个人也会因机体的内外环境变化而改变。既然同属正常人，就不能以

29、某一个测量数据作为标准，而必须确定一个波动范围。如一般以4.0109/L10.0109/L作为人WBC总数的参考值范围。参考值范围在诊断方面可用于划分正常与异常。关于过去“正常值”这一概念，在其意义、推理和观念上都比较模糊，现已很少使用，而改用“参考值”，其确切含义为从选择的参照总体上获得所有检查结果，当用统计方法建立百分位数界限时所给出的区间称参考值范围。（二）制定方法：1.首先从正常人总体中抽取足量样本所谓“正常人”不是指机体任何器官，组织的形态及机能都正常的人，而是指排除了影响所研究指标的疾病和有关因素的同质人群。 2.根据指标的实际用途确定单侧或双侧界值：若某种指标的过高或过低均属异

30、常，需要确定正常值范围的上限和下限（双侧），如某指标过高为异常，则确定上限，在某指标过低为异常则确下限（单侧）。3.根据研究目的和应用要求选定适当的百分界值，常用80%、90%、95%或99，其中最常用的是95。4.根据资料的分布特点，选用恰当的界值计算方法。如正态分布资料用正态分布法，对数正态分布资料选用对数正态分布法，偏态分布资料选用百分位数法。5.控制测量误差。（三）医学参考值范围的估计1正态分布法适用于正态或近似正态分布资料。双侧界值：双侧界值：95% 单侧上界： 99% 单侧上界：单侧下界：单侧下界：2对数正态分布法适用于对数正态或近似正态分布资料。双侧界值：双侧界值：95

31、% 单侧上界： 99% 单侧上界：单侧下界：单侧下界：3百分位数法适用于偏态分布资料。双侧界值：双侧界值：95% 单侧上界 99% 单侧上界单侧下界：单侧下界：例8.10 试估计表81中某地132名5558岁健康成人空腹血糖值的95%医学参考值范围。从图8-1可以看出该资料服从正态分布，因此采用正态分布法，本例=4.653，S =0.401，双侧95参考值范围为：4.6531.960.4013.87，5.44某地5558岁健康成人空腹血糖值的95%医学参考值范围为3.875.44（mmol/l）若资料不服从正态分布，经对数转换后呈正态分布，用对数正态分布法，所需计算对数值的参考值范围

32、，再求反对数。若资料呈偏态分布或分布不明，则用百分位数法求其参考值范围。课堂小结：复习思考题：1. 算数均数、中位数、几何均数的适用对象、计算方法和特点是什么？2. 全距、四分位间距、方差、标准差、变异系数各有何特点？3. 标准差的用途有哪些？若标准差小，均数的代表性如何？4. 正态曲线下面积的分布规律及其应用。5. 实习。参考书目：1.仲来福主编.卫生学（第五版）.北京：人民卫生出版社，20012.李德主编.预防医学（第二版）.北京：人民卫生出版社，20013.余松林主编.医学统计学（第一版）.北京：人民卫生出版社，20024.叶婷婷主编.预防医学（第三版）.北京：人民卫生出版社，200216

下载提示：本站仅提供存储空间/不修改/不编辑