第八章数值变量资料的统计描述(一).doc
《第八章数值变量资料的统计描述(一).doc》由会员分享,可在线阅读,更多相关《第八章数值变量资料的统计描述(一).doc(16页珍藏版)》请在沃文网上搜索。
1、数值变量资料的统计描述课 时:6学时,其中理论4学时 实习2学时授课对象:临床医学本科目的要求:1. 掌握数值变量资料主要描述性指标的定义、应用条件和计算方法。2. 熟悉标准差的应用、正态分布的特征、牢记正态曲线下面积的分布规律。3. 了解制定医学参考值范围的步骤和方法。重 点:主要描述性指标的定义、计算和应用,标准差的意义及应用。 难 点:正态分布特征及面积分布规律的应用。教学方式:讲授、讨论学时安排:组织教学22分钟,复习旧课32分钟,讲授新课752分钟,讨论答疑15分钟、小结5分钟, 实习90分钟。理论教学内容如下: 对数值变量资料进行统计描述,需要根据资料的分布类型选择合适的统计指标,
2、因此,首先我们要通过频数分布表或分布图来了解资料的分布特征。 第一节 数值变量资料的频数分布一、 频数分布表及其制作什么叫频数(frequency)? 频数是指在对一组研究对象进行观察时,某变量或指标数值出现的次数。我们可以将各变量值及其出现的频数编制频数分布表,以此反应各变量值与其频数之间的关系,并观察资料的分布类型。现利用例8.1 的资料来说明编制频数分布表的步骤。1.求全距(极差):= 最大值最小值5.593.601.99(mmol/L)2.确定组数、组段和组距 根据样本含量多少确定组段数,一般设813个组段,100例以上取10个左右,例数较少可相应减少组段数。相邻两组段下限之差称为组距
3、(),一般都用等距,且用“极差组段数”之商最接近的整数值作为组距,本例若分为10个组段,则/1.99/100.199(mmol/L), 取整0.2,便于汇总和计算。各组段的的起点和终点分别称为下限和上限。注意的是:第一组段应包括最小值,下限取3.60mmol/L,最末组段应包括最大值,略大于或等于最大值。即取5.60mmol/L。3.列出频数表组段确定后,将原始数据用划计法或计算机做出频数分布表,可得到各组段的频数、频率和累积频率,见表81。 二、频数分布的特征由频数表可看出分布的两个重要特征,集中趋势,空腹血糖测定值虽然高低不等,但向中间集中,中等水平(4.604.80 mmol/L)的人数
4、最多;离散趋势,即随着血糖值逐渐变大或变小,人数越来越少,向两端分散。由此知道资料的分布类型,频数分布有对称分布和偏态分布之分。对称分布是指集中位置在正中,左右两侧频数分布大致对称,这种分布统计学上称为正态分布或近似正态分布。如表81所示,若绘制成直方图更为直观清楚。偏态分布是指频数分布不对称,集中位置偏向一侧,若偏向数值小的一侧正偏态,如食物中毒潜伏期的分布集中位置偏向数值大的一侧负偏态分布,如冠心病,大多恶性肿瘤患者的年龄分布都呈负偏态分布。不同的分布选用不同的统计分析方法。第一节 集中趋势指标统计分析包括统计描述和统计推断两部分,统计描述是用统计指标、统计表和统计图来描述资料分布规律及数
5、量特征;统计推断则包括总体参数估计和假设检验两个内容。 平均数(average)是一类描述数值变量资料集中趋势的指标。这类指标不但能给人一个简明概括的印象,而且还便于进行事物间的分析比较。医学统计上常用的集中趋势指标有、G、M,它们用于描述一组同质数值变量资料的平均水平或集中趋势。 一、算术均数简称均数,它是一组已知性质相同的数值之和除以数值个数所得的商。常用表示样本均数,表示总体均数,适用于呈对称分布,尤其是正态分布或进似正态分布的数值变量数据资料。其计算方法有直接法,加权法、简捷法三种,随着计算机的普及,简捷法将被逐渐淘汰。 (一)直接法 当观察例数不多,如小于30时,或观察例数虽然很多,
6、但有计算机及统计软件,宜选择此法,公式: (8.1)例8.2 测定5名健康人第一小时末血沉,分别是6,3,2,9,10mm,试求均数。将5人血沉值代入公式81,得 (二)加权法 当观察值个数较多时,可先将各观察值分组归纳成频数表,用加权法求其均数。将数据编制成频数表,得出每组的频数,计算各组的组中值, 。公式: (8.2)式中,分别为各组段的频数, ,分别为各组段的组中值。式中频数(又称作权数)与组中值之乘积,近似等于该组变量值之和;各组中值与权数之乘积的总和,视为所有变量值的总和;总和除以总频数的商,作为全部观察值的均数。由此可见,各组的权数越大,权数与组中值乘积越大,作用也越大;反之权数越
7、小,作用也小,这就是该法被称为加权法的由来。某地2002年5558岁健康成人空腹血糖平均数、标准差加数法,简捷法计算表组 段频数f组中值xfxfx2缩减值dfdfd2=3.633.711.141.07515753.833.911.745.63412484.084.132.8134.48324 121724.2234.398.9425.27246924.4244.5108.0486.00124244.6254.7117.5552.250004.8204.998.0480.20120205.0125.161.2312.12224 90485.2105.353.0280.90330905.65.64
8、5.522.0121.0041664合计132()614.2()2878.92()31()533() 缩减值将表中数据代入公式(8.2),得(mmol/L)当变量值个数较多,同时数值又较大时,可在加权法的基础上,进一步简化为简捷法计算均数。(手工计算使用)(三)简捷法:公式: :假定均数, :各缩减值与相应频数乘积之总和, :总频数, :组距。仍以上述例子,在加数法计算表的基础上加上两栏,即增加、求得=31 =132 =0.2 代入公式: (mmol/L)与加权法计算结果相同。二、几何均数用“G”表示,适用于:变量等比数列分组的资料,如血清抗体滴度,血清凝集效价等。变量呈正偏态分布,但数据经对
9、数变换后呈正态分布或近似对数正态分布的资料。如在医学实践中某些疾病的潜伏期,必需微量元素的含量等。计算方法有: (一)直接法用于变量值个数不多时,可直接将各变量代入公式求得:公式: (8.3)两边取常用对数: 再取反对数: (8.4)例8.3 5人的血清滴度分别是1:2,1:4,1:8,1:16,1:32,求其平均滴度。将其数据代入公式: (7.9983)该5人血清平均滴度为1:8(二)加权法 用于变量值较多或频数表资料时,公式为: (8.5)为各组段的效价或滴度的倒数或各组段的组中值(对数正态分布资料)。为各组段对应的频数例8.4 有60人血清抗体效价,分别为:7人1:5,11人1:10,2
10、2人1:20,12人1:40,8人1:80,试求其平均抗体滴度。将各抗体效价的倒数代入公式(8.5)得 50人的血清平均抗体效价为1:20.705。(三)简捷法公式: :假定几何均数G的对数值:对数组距,即变量值的对数值的组距。:各缩减值与相应频数乘积之总和。例,见表8-2资料本例 0.301 30名易感儿童免疫后的平均血液抑制抗体滴度为1:48.5。两种方法结果一致。表82 抗体平均滴度加权数、简捷法计算表抗体滴度人数滴度倒数缩减值(1)(2)(3)(4)(5)1:8280.90311.8062361:166161.20417.2246212 231:325321.50517.5255151
11、:6410641.80618.0620001:1284122.10728.4288141:25622562.40824.816424 111:51215122.70932.709333合计3050.5728() 12三、中位数(median)中位数是一组由小到大排列的观察值中位次居中的数值用M表示。它常用于描述偏态分布或分布不明资料的中心位置,中位数不受个别特小或特大观察值的影响,特别是分布末端无确定数据不能求均数和几何均数,但可求中位数。其计算方法有直接法和频数表法。1直接法 当较小时,先将观察值由小到大排列,为奇数时,位置居中的观察值即为中位数M;为偶数时,位置居中的两个观察值的平均数即为
12、M。2频数表法 当n较大时,先编频数表,然后再按以下公式计算中位数。 (8.6):为中位数(即累计频率为50%)所在组段的下限:为组距:为中位数所在组段的频数:为小L的各组段的累计频数:为总例数例8.5 求表83中数据的中位数。 由表83可见,中位数所在组段在12组段内表83 某传染性疾病者潜伏期的中位数和Px计算表潜伏期(h)人数(f)累计频数 累计频率(%)(1)(2)(3)(4)=(3)/n2262623.634487467.276259990.008610595.4510310898.18122110100.00本例 =4 =48 =12 =26 =110 代入公式: (天)四、百分位
13、数(percentile)百分位数是一个位置指标,它是把一组数据从小到大排列,分割成100等分,每等份含1的观察值,分割限上的值就是百分位数,用符号表示。取任意一个百分位数可将全部数据分成左右两部分,有(100)%的数值大于,有%的数值小于。中位数是第50百分位数,用P50表示。百分位数常用于描述一组偏态分布资料在某百分位置上的水平及确定偏态分布资料的医学参考值范围。第5、第25、第75、第95百分位数分别记为P5、P25、P75、P95。这些百分位数也可以作为反应离散趋势的指标使用,如P5与 P95之间的距离或 P25与 P75之间的距离。百分位数也是一个有序数列百等分的分割值,如25左侧的
14、累积频数占总数的25%,右侧占75%。50是一个特定的百分位数。百分位数的计算原理与中位数完全相同,计算公式为: (7.7)式中分别为所在组段的下限,组距和频数,为小于的各组段的累计频数。例8.6 现仍以83表数据为例,求25,P75,P95 。 (天) (天)(天)同理可求 (天) 中位数与百分位数的应用(补充)1中位数与均数、几何均数的作用相同,都能反映一组数据的趋中位置或平均水平,由于中位数的确定仅取决于它在数据序列中的位置,而不是由全部观察值综合计算出来的。因此不受少数特大或特小值的影响,在这一点上优于均数。一般来说,在频数分布呈明显偏态(观察值间相差比较大),或频数分布的两端无确定数
15、值时,使用中位数作为趋中位置或平均水平较为合理,当变量呈对称分布时,理论上中位数和均数相同,但对于样本资料来说,由于计算均数时利用了所有的观察值,所以较中位数稳定。另外中位数有一个很大的缺点,即不便于作统计运算,如根据两组资料的不同中位数无法算出合并的中位数,因此在统计分析中,中位数的用途不如均数那样广泛。2百分位数可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。多个百分位数结合使用常可以用来说明某一特定的问题,如用25及75描述资料的分散程度,用2.5及97.5规定医学95%的参考值范围,在研究青少年生长发育时用5、25、75、95划分等级。百分位数可用于任何频数分布的
16、资料,但靠近两端的百分位数只在样本例数比较大时才比较稳定(如100)。第二节 离散趋势指标数值变量数据的频数分布有两个重要特征:集中趋势和离散趋势。必须指出,要把两者结合起来才能全面地反映数据频数分布的基本特征。描述变异程度的常用指标有全距,四分位数间距、方差,标准差以及变异系数。其中最常用的是方差和标准差。一、全距(range)亦称极差,用表示,是一组观察值中最大值与最小值之差,反映个体变异的范围。全距大,说明变异程度大。全距小说明变异度小。全距适合任何分布的数值变量资料(末端距无确切数值数值资料除外)可用于说明传染病、食物中毒的潜伏期。用全距描述资料变异度的大小,虽然简单明了,但它只考虑了
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 数值 变量 资料 统计 描述