《医学统计学》

124次阅读
没有评论

共计 170646 个字符,预计需要花费 427 分钟才能阅读完成。

《医学统计学》(全本)

第一章 绪论

第一节 医学统计学及其主要内容

医学统计学是运用概率论与数理统计的原理及方法,结合医学实际,研究数字资料的搜集、整理分析与推断的一门学科。

医学研究的对象主要是人体以及与人的健康有关的各种因素。生物现象的一个重要特点就是普遍存在着变异。所谓变异(个体差异),系指相同条件下同类个体之间某一方面发展的不平衡性,系偶然因素起作用的结果。例如同地区、同性别、同年龄的健康人,他们的身长、体重、血压、脉搏、体温、红细胞、白细胞等数值都会有所不同。又如在同样条件下,用同一种药物来治疗某病,有的病人被治愈,有的疗效不显着,有的可能无效甚至死亡。引起客观现象差异的原因是多种多样的,归纳起来,一类原因是普遍的、共同起作用的主要因素,另一类原因则是偶然的、随机起作用的次要因素。这两类原因总是错综复杂地交织在一起,并以某种偶然性的形式表现出来。科学的任务就在于,要从看起来是错综复杂的偶然性中揭露出潜在的必然性,即事物的客观规律性。这种客观规律性是在大量现象中发现的,比如临床要观察某种疗法对某病的疗效时,如果观察的病人很少,便不易正确判断该疗法对某病是否有效;但当观察病人的数量足够多时,就可以得出该疗法在一定程度上有效或无效的结论。所以,医学统计学是医学科学研究的重要工具。

医学统计学在本世纪二十年代以后才逐渐形成为一门学科。解放前,我国学者即致力于把统计方法应用到医学中去,但人力有限、范围较窄。解放后,随着医学科研工作的发展,本学科得到迅速普及与提高。通过大量实践,在不少方面积累了自己的经验,丰富了医学统计学的内容。而电子计算机的作用,更促进了多变量分析等统计方法在医学研究中的应用。

医学统计学的内容包括:①统计研究设计。我们制订调查计划或实验设计时,除专业问题外,还必须从医学统计学的角度考虑,使调查或实验结果能够科学地回答所研究的问题。一个好的设计可以用较少的人力、物力和时间取得更多的较可靠的资料。②总体指标的估计。医学研究中实际观测或调查的部分个体称为样本,研究对象的全体称为总体。人们除用均数、率等统计指标对调查或实验结果进行描述外,更重要的是通过样本的信息,来估计总体中相应的统计指标,即参数估计。③假设检验。就是依据资料性质和所需解决的问题,先建立适当的假设,然后采用适当的检验方法,根据样本是否支持所作的假设,来决定对假设的接受或拒绝。④联系、分类、鉴别与鉴测等研究。在疾病的防治工作中,经常要探讨各种现象数量间的联系,寻找与某病关系最密切的因素;要进行多种检查结果的综合评定、探讨疾病的分型分类:计量诊断,选择治疗方案;要对某些疾病进行预测预报、流行病学监督,对药品制造、临床化验工作等作质量控制,以及医学人口学研究等。医学统计学,特别是其中的多变量分析,为解决这些问题提供了必要的方法和手段。本讲义介绍了医学统计的基本内容,此外,本讲义中还包括军医必须了解或掌握的我军部队、医院、战时的各种登记和统计表,常用统计指标的计算和分析等内容。

作为医学科学工作者,学习和掌握一定的统计学知识是十分必要的。第一,在阅读医学书刊中,经常会遇到一些统计学方面的名词概念,有了这方面的知识,有助于正确理解文章的涵义;第二,军医在实际工作中,经常要做登记工作,要填写各种报表,只有懂得了原始登记与统计结果的密切关系,并掌握了收集、整理与分析资料的基本知识与技能,才能自觉地、认真地把登记工作做好,积累有科学价值的资料;第三,参加科研工作时,从开始设计到数据整理分析与统计结果的表达,每一步骤都需要统计学知识;第四,在制订计划、检查工作、总结经验时,都离不开统计数字,尤其在撰写科研论文时,有了统计学知识,才能使数据与观点密切结合,作出正确的结论。

医务工作者学习统计学,首先必须明确:我们应该掌握的关键不是数学原理,而是怎样合理地、恰当地把数理统计的方法应用到医学科研工作中去,并结合专业知识,提高分析问题与解决问题的能力。其次在学习过程中,要理论联系实际,重视实习与练习。作业中要遵守数学上的规则与习惯,如小数点及各个位数应上下对齐,一个多位数的数值不能分写成两行,等号不能写在一行的末了而应写在第二行的开头等等。再次,各种统计符号必须写正确,汉字、阿拉伯字与外文字母必须写清楚,不能写成模棱两可,只有在学习时养成良好的习惯,将来工作中才能少出差错。

最后我们着重指出:统计工作最根本的一条就是实事求是,如实反映情况。因此,无论日常工作或科学研究中,必须养成严肃认真的作风和反复核对的习惯,同一切弄虚作假的现象进行坚决的斗争,尽最大努力获得正确数据,使分析结论建立在可靠的基础上。

第二节 医学统计学常用的名词概念

一、样本与总体

前面已提及,医学研究中实际观测或调查的一部分个体称为样本,研究对象的全部称为总体。如作水质检验时从井水或河水中采的水样,临床化验中从病人身上采的血液或其它活体组织标本,是样本;而整个一口井或一条河的某一段所有的水,某病人全身所有的血液或某个组织器官,则是总体。这类总体是具体存在的,但另有些总体却是假想的,只是理论上存在的一个范围。例如试验某一治疗流感新药的疗效,最初接受治疗的一批流感患者,不论数量多少,都只是一个样本。若该药疗效得到肯定,从而加以推广,那么此后凡在相同条件下接受该药治疗的所有流感患者,都属于这个总体。可是当初试用时,这个总体还并不存在,是假想的。

总体包含的观察单位通常是大量的甚至是无限的,在实际工作中,一般不可能或不必要对每个观察单位逐一进行研究。我们只能从中抽取一部分观察单位加以实际观察或调查研究,根据对这一部分观察单位的观察研究结果,再去推论和估计总体情况。如上述某新药治疗流感例子,试验治疗的只是少数有限的病人,而结论却要推广到全体,得出一个该药对所有流感患者之疗效的规律性的认识。所以说,观察样本的目的在于推论总体,这就是样本与总体的辩证关系。

为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量。

二、概率

又称机率,是用以描述某事件发生的可能性大小的一个数值。

在自然界和人类社会中,存在着两类不同的现象:①在一定条件下,肯定发生的事件叫做必然事件,肯定不发生的事件叫做不可能事件。如在适当温度湿度下经一定时间孵化,正常受精鸡蛋必然会孵出小鸡来,而石头是不可能孵出小鸡来的。必然事件与不可能事件虽然形式相反,但两者在发生某种结果与否都是确定的,故统称确定性现象。②在基本条件不变的情况下,可能发生的结果有多种,究竟发生哪种结果,事先不能肯定,这类现象叫做随机现象。随机现象的表现结果称为随机事件。如任意抛掷一枚硬币,可能徽花向上也可能币值向上,抛掷前不能肯定,这是一个随机现象,而结果出现“徵花向上”则是一个随机事件。

(一)古典概率 是最简单的随机现象的概率计算。这类随机现象具有两个特征:①在观察或试验中它的全部可能结果只有有限个,譬如为 n 个,记为 E 1,E2,…,En,而且这些事件是两两互不相容的,即任何两个事件不能同时发生;②事件 E 1,E2,…,En的发生或出现是等可能的,即它们发生的概率都一样。古典概率的大部分问题都能形象地用摸球模型来描述。有利于直观地理解概率论的许多基本概念;而且它有着多方面的重要应用,例如工业产品的抽样检查等。

(二)统计概率 上述“事件”是指不能再进行分解或不能由其它事件构成的基本事件。在实际工作中,基本事件的发生并不总是等可能的,而且有时为无穷多个。这样就有必要把古典概率的定义加以推广,从事后经验的角度来理解概率的意义。实践证明,虽然个别随机事件在某次试验或观察中可以出现也可以不出现,但在大量重复试验中它却呈现出明显的规律性。假设在相同条件下,独立地重复做 n 次试验,某随机事件 A 在 n 次试验中出现了 m 次,则比值 m / n 称为随机事件 A 在 n 次试验中出现的频率。当试验重复很多次时,随机事件 A 的频率 m / n 就会在某个固定的常数 P 附近摆动,而且 n 愈大摆动的幅度愈小。这种规律性称之为统计规律性。频率的稳定性说明随机事件发生的可能性大小是随机事件本身固有的、不随人们意志为转移的客观属性,所以在医学科研中,当 n 充分大时,就以频率作为概率的近似值,记住 P(A)即

《医学统计学》

由此可见,频率是就样本而言的,而概率总是从总体的意义上说的。这样,概率就为预计某一事件发生的可能性大小,提供了衡量的尺度。

例如:某病患者 40 名,用某疗法治疗后,其中 35 人痊愈,治愈者占治疗人数的 35/40,这是频率。因为数量少,这个频率可能波动较大。假如经过长期的大量观察,比如数百、数千例,得到治愈率为 70%,我们就可以说,该疗法治愈某病的概率近似值为 70%。

又如:某院妇产科在一个月内出生婴儿 30 名,其中男婴 18 名,占新生儿数的 18/30,这叫频率。大量统计表明,人口中男女的比例基本上是 1:1。这是个较稳定的常数,即概率的近似值。于是,在婴儿分娩前,我们就可用它作为尺度,预计是男的概率为 1 /2(0.5 或 50%),是女的概率也为 1 /2(0.5 或 50%)。

通过以上讨论,可以知道:如果某事件是必然事件,则有 m =n,所以必然事件的概率等于 1;如果某事件是不可能事件,则有 m =0,所以不可能事件的概率等于 0;如果某事件是随机事件,则有 0 <m<n,所以随机事件的概率是介于 0 与 1 之间的一个数。某事件的概率愈接近 0,表示发生的可能性愈小;愈接受 1,表示发生的可能性愈大。< p=””></m<n,所以随机事件的概率是介于 0 与 1 之间的一个数。某事件的概率愈接近 0,表示发生的可能性愈小;愈接受 1,表示发生的可能性愈大。<>

三、随机变量

简单地说,是指随机事件的数量表现。例如一批注入某种毒物的动物,在一定时间内死亡的只数;某地若干名男性健康成人中,每人血红蛋白量的测定值;等等。另有一些现象并不直接表现为数量,例如人口的男女性别、试验结果的阳性或阴性等,但我们可以规定男性为 1,女性为 0,则非数量标志也可以用数量来表示。这些例子中所提到的量,尽管它们的具体内容是各式各样的,但从数学观点来看,它们表现了同一种情况,这就是每个变量都可以随机地取得不同的数值,而在进行试验或测量之前,我们要预言这个变量将取得某个确定的数值是不可能的。

按照随机变量可能取得的值,可以把它们分为两种基本类型:①离散型随机变量,即在一定区间内变量取值为有限个,或数值可以一一列举出来。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。②连续型随机变量,即在一定区间内变量取值有无限人, 或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。

四、误差

误差是指实际观察值与客观真值之差、样本指标与总体指标之差。误差可分为系统误差和随机误差。

(一)系统误差 在实际观测过程中,由于仪器未校正、测量者感官的某种障碍、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值两侧,而是有方向性、系统性或周期性地偏离真值。这类误差可以通过实验设计和技术措施来消除或使之减弱,但不能靠概率统计办法来消除或减弱。

(二)随机误差 或称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机地变化。随机误差服从正态分布,可以用概率统计方法处理。

在随机误差中,最重要的是抽样误差。我们从同一总体中随机抽取若干个大小相同的样本,各样本平均数(或率)之间会有所不同。这些样本间的差异,同时反映了样本与总体间的差异。它是由于从总体中抽取样本才出现的误差,统计上称为抽样误差(或抽样波动)。抽样误差在医学生物实验中最主要的来源是个体的变异。所以这是一种难以控制的、不可避免的误差。但抽样误差是有一定规律的。研究和运用抽样误差的规律, 是根据样本估计总体时所必须领会的基本概念之一,也是医学统计学的重要内容之一。

随机误差中还包括重复误差。它是由于对同一受试对象或检样采用同一方法重复测定时所出现的误差。如用天平称同一个烧杯的重量,重复测定多次,其结果会有某些波动。控制重复误差的手段主要是改进测定方法,提高操作者的熟练程度。重复是摸清实验误差大小的手段,以便分析和减少实验误差。

五、假设检验

亦称显着性检验,其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。

生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值来下结论。当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。

进行假设检验时,要先建立检验假设(即上述第一种可能,符号是 H)与备择假设(即上述第二种可能,符号是 H 1),确立检验水准(当检验假设为真,但被错误地拒绝的概率,记作 α),通常取 α =0.05 或 α =0.01;然后由样本观察值按相应的公式计算统计量,如 X 2值、t 值等;最后查有关的统计用表确定 P 值范围(有时也可直接计算 P 值)作出结论。若 P >α,结论为按 α 所取水准不显著,不拒绝 H,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果 P≤α, 结论为按所取 α 水准显著,拒绝 H,接受 H 1,则认为此差别不大可能仅由抽样误差所致, 很可能是实验因素不同造成的,故在统计上成立。

第三节 计数资料与计量资料

医学统计资料按其性质一般分为计数资料与计量资料两类。不同类型的统计资料应采用不同的统计分析方法。

计数资料是先将观察单位按某种属性或类别分成若干组,再清点各组观察单位个数所得到的资料。如临床某些检验结果用阳性或阴性反应表示,对一批某病患者检验完毕后,清点呈阳性或阴性反应的各有若干例。又如要调查某人群的血型分布,先按 A、B、AB、O 四型分组,再清点各血型组人数。计数资料每个观察单位之间没有量的差别,但各组之间具有质的不同,不同性质的观察单位不能归入一组。对这类资料通常是先计算百分比或率等相对数,需要时做百分比或率之间的比较,也可做两事物之间相关的相关分析。

计量资料是用仪器、工具或其它定量方法对每个观察单位的某项标志进行测量,并把测量结果用数值大小表示出来的资料,一般带有度量衡或其它单位。如检查一批应征青年体重,需要磅秤测量,通常以公斤为单位,测得许多大小不一的体重值。其它如身长(cm)、血压(mmHg)、脉搏(次/分)、红细胞(万 /mm3)转氨酶(单位)等,都属于计量资料。每个观察单位的观测值之间有量的区别,但同一批观察单位必须是同质的。对这类资料通常先计算平均数与标准差等指标,需要时做各均数之间的比较或各变量之间的分析。

还有一些资料,也是将观察单位按某种属性或某个标志分组,然后清点各组观察单位个数得来的,但所分各组之间具有等级顺序。这些资料既具有计数资料的特点,又兼有半定量的性质,称为等级资料或半定量资料。例如对一批急性病毒性肝炎患者作麝香草酚絮状试验,将试验结果按 -、+、++、+++、++++ 分组,显然各组之间既有等级顺序,又有程序与量的差别。又如某病住院病人的治疗结果,按治愈、好转、无效、死亡分组,同样各组之间具有顺序与程度之别。分析等级资料常用的统计指标有比和率,常用的统计方法有秩和检验、参照单位分析等。

在医学实践中,根据分析研究的目的,计数资料与计量资料可以互相转化。例如血压值本是计量资料,但如果将一组 20-40 岁成年人的血压值分为血压正常与血压异常两组,再清点各组人数,于是这组血压资料就转化成为计数资料了。假若将这组血压值按低血压(<80/60 毫米汞柱)、正常血压(80-130/60-89 毫米汞柱)、轻中度高血压(>130/90-110 毫米汞柱)、重度高血压(>130/>110 毫米汞柱)的等级顺序分组,清点各组人数,这时这组血压资料又转化为等级资料了。又如在计量诊断中,将某些阳性体征根据确诊病人的概率赋予分数,分数的多少代表量的大小,这样原来的计数资料就转化为计量资料。

由于计量资料可以得到较多的信息,所以凡能计量的,尽量采用计量资料。

第二章 统计表与统计图

统计表与统计图是整理、表达和分析数字资料的重要工具。运用统计表可避免冗长的方案叙述。能把有关的数字列在一起,既便于计算比较,又易于发现错误和遗漏。绘制统计图可使数字资料形象化、通俗易懂,并能把资料的变化趋势和各种现象间的关系明确地表示再现,使读者在短时间内获得明晰的印象。统计图只能表示概数,要想了解准确的数字,仍需看统计表。

第一节 统计表

统计表可从广义或狭义上看。广义的统计表包括调查表、登记表、过渡表及表达最后结果的统计表在内。狭义的统计表是指表达统计结果的统计表。下面简述狭义统计表的结构和编制。

一、统计表的构成

从统计表的外形看,可分为标题、标目、线条和数字等;从表的内容上看,又可分为主辞和宾辞两部分。统计表中被说明的事物称为表的主辞,用来说明主辞的统计指标称为表的宾辞,统计表的基本格式如下:

表号标题(包括何时、何地、何事)《医学统计学》

备注:

例如:表 2.1 是某医院用五种检查方法,对上消化道恶性肿瘤的检出率。其中五种检查方法是统计表的主辞,放在表的左侧横标目位置:而检查数、检出数和检出率是统计指标,为宾辞,放在表的右侧,即纵标目位置。一张设计比较好的统计表,将主辞和宾辞结合起来,可读成一句完整而通顺的话。如:胃镜检查 48 例,检出 44 例,检出率为 91.7% 等。

表 2.1 各种方法对上消化道恶性肿瘤检出率

检查方法检查数检出数检出率(%)
胃镜484491.7
病理活检483470.8
钡餐351440.0
刷子细胞161062.5
联合诊断1616100.0

应注意,在编制统计表时,一般都将主辞置于表的左侧,宾辞置于表的右侧。但有时为了节省篇幅或便于排印,而把主辞和宾辞的位置互换,如表 2.6。因此,阅读统计表时,应从内容上而不要只从位置上来辨别主辞与宾辞。

二、统计表的种类

根据主辞的情况,统计表可分为三种:简单表、分组表和复合表。

(一)简单表 主辞未经任何分组,只罗列了观察单位(或地区)、时间或统计指标的统计表,称为简单表。如表 2.1 只罗列了检查方法,故为简单表。

(二)分组表 主辞按一个标志分组的统计表称为分组表。如表 2.2 出院病人只按治疗结果一个标志分了组,故为分组表。

表 2.2 某医院出院病人的治疗结果,1977 年

治疗结果出院人数占出院总人数百分比(%)
治 愈3,79580.1
好 转67614.2
无变化2064.3
转他院180.4
死 亡501.0
合 计4,745100.0

(三)复合表 主辞按两个或两个以上标志结合起来分组的统计表称为复合表。如:表 2.3 是将心绞痛病人按病情严重程度及疗效结合起来分组的,故为复合表。

表 2.3 某医院用“725—1”治疗心绞痛病人的疗效,1975 年

病 情显效改善无改变合计
轻 度1724344
中 度1019433
较重度213
总 计2943880

三、编制统计表的注意事项

(一)内容 要简单明了,不可包罗万象。通常一个表只表达一个或两个内容。

(二)主辞与宾辞 要划分清楚。通常主辞置于表的左侧,宾辞在右侧(有时为了节省篇幅,主辞与宾辞的位置也可互换)。

(三)标题 是统计表的总名称,要用一句简单而又确切的话写出。通常包括表所说明的中心内容及时间和地点。

(四)标目 统计表的标目有三种;纵标目、横标目和总标目。纵标目位于表的上端,说明该纵栏指标的含义及度量单位;横标目位于表的左侧,说明该横栏数字的含义;几个纵标目或横标目具有共同性质时,可冠以总标目。标目处理得好坏,是决定统计表质量的关键之一,因此,在制表中必须充分利用纵横两上标目,妥善安排主辞与宾辞的位置,此外,标目的层次不宜太多,(通常 1 至 2 层,最多不宜超过 3 层)。

(五)数字 表内的数字是统计表的基本语言,必须准确无误。要求同一种统计指标各数值的准确度一致,书写时要求各个位数或小数点要上下对齐。表中数字暂缺时用“…”号填充。

(六)线条 统计表中的线条应尽量少,但构成表的基本线条不能缺。通常表的上下边线,表头与表体之间,表头内总标目与纵标目之间都应有横线;如有合计时,部份数字与合计数字之间也要用横线隔开,其它线条均可省略。

(七)备注 备注不是统计表的必需组成部分,遇有特殊情况须用备注时,可写在表的下面。

四、不良统计表的修改举例

表 2.4 是某医院传染科用侧柏叶注射液合并化疗(简称合并组)与单纯化疗(简称化疗组)两种疗法各治疗肺结核 34 例的疗效比较。该表绘制时存在以下缺点:(1)表的左上角不应有斜线,左上角标目与表内重复,应删去。(2)纵标目重复太多,(3)格线太多。(4)平均日数字精确度不一致,修改后见表 2.5。

表 2.4 两组病例主要症状及体征恢复正常所需平均日数

《医学统计学》

表 2.5 两组病例 (各 34 例) 主要症状与体征恢复正常平均日数

症状与体征例 数恢复正常的平均日数
化疗组合并组化疗组合并组相差
咳嗽咳痰131737.725.712.0
嘲热81140.026.613.4
肺部湿罗音7963.130.133.0
血沉大于 20 毫米121577.947.030.9
痰结核菌阳性47133.282.051.2

第二节 统计图

统计表的资料用几何图形或图案等形式表示即成为统计图。

一、统计图的种类与构造

统计图种类很多,常用的有:条图、圆图、百分条图、线图(包括半对数线图)、直方图和统计地图等。

统计图由以下各部份构成:

(一)标题 每个图都应有标题。标题要简明确切,通常包括内容、时间和地点。其位置在图域之外,一般放在图域的下面。

(二)图域 图域的长宽之比一般 7:5 为美观,圆图除外。

(三)标目 纵横两轴应有标目,即纵标目和横标目,并注明度量衡单位。

(四)尺度 纵横两轴都有尺度,横轴尺度自左至右,纵轴尺度自下而上,数值一律由小而大。尺度间隔要宽松。用算术尺度时,等长的距离应代表相等的数量。

(五)图例 用不同线条或颜色代表不同事物时,需用图例说明。

二、资料性质与图形选择

统计资料的性质决定于统计表的主辞。主辞可分为品质的和数量的两类。主辞是品质的,如单位名称、性别、病型等为品质资料;主辞为数量的,如年龄、时间、脉搏等称为数量资料。数量资料又可分为连续性资料和间断性资料。连续性资料是指任何两个小的数值之间可以有无限个数值存在,如时间可依次分为年、月、日、时、分、秒、十分之一秒……等,所以时间是连续性资料。至于家庭人口数,在原始记录上不可能找到有 4.3 或 5.8 人口的家庭,所以人口数是间断性资料。

各类资料宜用何种图形表达示意如下:

《医学统计学》

三、常用统计图的绘制方法及注意事项

(一)条图 又名长条图,以条的长度表示事物的数量。可用以表示绝对数、也可用以表示相对数或平均数,常用的有单式条图、复式条图和分段条图。

1.单式条图:如图 2.1,为某医院十年来六种疾病住院患者死亡人数。其资料见表 2.6。

2.复式条图:用以比较两种或两种以上有关事物的数量。如图 2.2 表示某师各团菌痢和肠炎的发病人数,其资料见表 2.7。

3.分段条图:用以比较事物的全部与其中一部分的数量。如图 2.3 表示某师各团传染病总人数及菌痢人数,其资料见表 2.8。

绘制条图时应注意以下各点:

(1)图中各条要有同一基线,其尺度必须从“0”开始,否则会改变条间的比例关系。

(2)条的排列顺序由高到低,如事物有自然顺序者,也可按自然顺序排列。

(3)各条的宽度要一致,条间的空隙要相等,条间空隙一般不要大于条宽。

(4)尽量避免用折断或回转的条。

表 2.6 某医院十年来六种疾病住院患者死亡人数

病名瘤(癌)脑外伤心脏病白血病脑溢血肺炎
死亡人数1874442383229

《医学统计学》

图 2.1 某医院十年来六种疾病住院患者死亡人数

表 2.7 某师各团菌痢、肠炎发病人数 19××年

病种一团二团三团炮团
菌痢41436134
肠炎26233835

《医学统计学》

图 2.2 某师各团菌痢、肠炎发病人数(19××年)

表 2.8 某师各团传染病部人数及菌痢发病人数 19××年

一团二团三团炮团
传染病发病总人数81148179128
其中菌痢发病人数41436134

《医学统计学》

图 2.3 某师各团传染病总人数及菌痢发病人数(长条全段表示传染病发病人数,下段表示菌痢发病人数)

(二)圆图 圆图用扇形的面积,也就是圆心角的度数来表示数量。它用来表示组数不多的品质资料或间断性数量资料的内部构成,各部份百分比之各和必须是 100%。如图 2.4 表示某医院用 10% 明矾液治疗面部深层海绵状血管瘤的疗效构成,其资料见表 2.9。

圆心角(度)的计算方法是将百分数乘以 360,如表 2.9 中的特效百分比所占的圆心角度数为 69.5%×360=250.2, 余类推,见表 2.9 最后一栏。

绘制圆图时应注意:各扇形应按大小或自然顺序自时钟 9 时或 12 时处开始,顺时针方向排列;各扇形内要注明简要的文字和百分比。

表 2.9 10% 明矾液治疗面部深层海棉状血管瘤疗效

疗效病例数百分比(%)绘图用圆心角(度)
特效6669.7250.0
显效1414.752.9
有效1111.641.8
无效44.215.1
合计95100.0360.0

《医学统计学》

图 2 -4 10% 明矾治疗面部深层海绵状血管瘤疗效

(三)百分条图 凡能画圆图的资料,也可用百分条图表示,绘制方便。尤其在比较几个组的内部构成时,可绘制长宽相同的几个直径,各直条内相应构成部分的排列顺序、花纹或图案应一致,并附一百分尺度。如图 2 -5,资料来源见表 2 -10。

表 2 -10 某医院用脊电针治疗慢性支气管炎的结果 19××年

病型总例数人 数百分比(%)
近控显效好转无效近控显效好转无效
单纯型8345251801032662.921.612.43.1
喘息型1799338341452.021.219.07.8

《医学统计学》

图 2 -5 某医院用脊电针治疗慢性支气管炎的结果

(四)线图 线图适用于连续性数量资料,常用以表示事物或现象在时间上的发展变化,如图 2 -6。从图中可看出 7~10 月份为菌痢发病的高峰期。资料见表 2 -11。

绘制线图时,通常以横轴表示时间或变量,纵轴表示指标,两轴的尺度均可不从“0”点开始。图内线条一般不超过四、五条,可分别以不同的线段或颜色表示,并附图例说明。

表 2 -11 某部队 1970 年逐月菌痢发病人数

月份123456789101112合计
发病人数446578287597492714324

《医学统计学》

图 2 -6 某部队 1970 年逐月菌痢发病人数

半对数线图 用于比较两种或两种以上率的变化速度。它是将线图绘在半对数坐标纸(纵轴为对数尺度,横轴为算术尺度)上。如果将表 2 -12 中的三组数据时间从 A 到 B 分别绘在算术格纸(图 2 -7)与半对数格纸(图 2 -8)上,将呈现两种不同的结果。

表 2 -12 绝对差与相对差比较

A→B绝对差(A-B)相对比(A/B)对数差(1gA-1gB)
(1)1000→1001000-100=9001000/100=101g 1000 -1g 100=3-2=1
(2)100→10100-10=90100/10=101g 100 -1g 10=2-1=1
(3)10→110-1=910/1=101g 10 -1g 1=1-0=1

《医学统计学》

图 2 -7 三组数据绘在算术格纸上

《医学统计学》

图 2 -8 三组数据绘在半对数格纸上

在算术格纸上三条直线的坡度相差悬殊,这是由 于三组数据的绝对差相差悬殊。在半对数格纸上三条直线平行,这是由于三组数据的对数差相等,图上反映出三组数据下降的幅度相同。

例如从表 2 -13 可看到细菌性痢疾的发病率最大值(45.37‰)为最小值(14.62‰)的 3 倍多,肺结核的最大值(3.65‰)为最小值 (0.52‰) 的 7 倍多。所以前者下降速度较慢,而后者较快,如果画在普通方格纸上,如图 02-9,将给人以错觉,而画在半对数纸上如图 2 -10,就能正确地表达两种疾病发病率下降速度的快慢。

绘制半对数线图时,横轴为算术尺度(是等距的),用来表示时间;而纵轴为对数尺度(是不等距的),用来表示被比较事物的某种率,纵轴尺度的标法,自 1 -10 为一组,上一组各数为下一组相应数的 10 倍。

表 2 -13 某部二十年来细菌性痢疾与肺结核的发病率 1958-1977

年份发病率(‰)年份发病率(‰)
细菌性痢疾肺结核细菌性痢疾肺结核
195830.223.65196818.061.10
195845.372.32196914.061.24
196038.842.12197016.061.30
196128.412.31197117.891.06
196224.332.59197216.710.94
196328.202.30197315.290.76
196419.411.86197419.110.66
196524.261.31197521.690.57
196625.241.27197617.560.53
196722.301.26197719.960.52

《医学统计学》

图 2 -9 某部二十年来细菌性痢疾与肺结核的发病率 1958-1977

《医学统计学》

图 2 -10 某二十年来细菌性痢疾与肺结核的发病率 1958-1977

(五)直方图 直方图用矩形面积表示频数. 如图 2 -11 为我军某校部份同年龄同性别学员的身高分布, 资料见表 2 -14.

表 2 -14 我军××学校部分学员的身长分配

身长(厘米)152-156-160-164-168-172-176-180-184-188-合计
人数11028565234125-1199

《医学统计学》

图 2 -11 我军××学校 199 学员的身长分配

当频数表的组距不等时,不能直接用各组频数绘制直方图,应先将组距化为相等,得出组距相等的各组的频数,再绘图,如表 2 -15 的组距不等,若用各组的患者人数绘制直方图,得图 2 -12,给人以错觉,好象 10~20 岁组的患者人数最多,其实这是组距不等造成的,因为 10 岁以前各组的组距为 1,而 10 岁以后各组的组距为 10 岁。因此,图 2 -12 不能正确反映真实情况,应先将组距化为 1,得出每岁平均患者人数,以此为矩形的高作图,如图 2 -13,才能正确表达出资料的实际情况。

绘制直方图的注意事项:

(1)直方图的的纵轴应从“0”开始,而横纵可以不从“0”点开始。

(2)直方图中各矩形之间可划直线隔开,也可以不划。

(3)当各组的组距不等时,不能直接用各组频数绘图,需要象表 2 -15 那样处理(通常是将频数除以组距作高度)后再作图,否则会给人以错误印象或概念。

表 2 -15 ×年×市流行性乙型脑炎患者的年龄分布

年岁0-1-2-3-4-5-6-7-8-9-10-20-30-40-50-合计
人数33911232211148636131141175
每岁患者人数3391123221114863.61.31.10.40.1-

《医学统计学》

图 2 -12 ×年×市流行性乙型脑炎患者的年龄分布

《医学统计学》

图 2 -13 ×年×市流行性乙型脑炎患者的年龄分布

7. 统计地图

统计地图用以表示事物 (或现象) 在地域上的分布情况, 多用点、线、颜色、符号等在地图上表示某种现象的数量,图图 2 -14 为我军某部队一次痢疾流行时的患者分布情况。

《医学统计学》

图 2 -14 某部队一次痢疾流行时的患者分布

练习题

1.统计图有哪几部分构成?制表的注意事项有哪些?

2.统计图有哪几部分构成?绘制统计图的注意事项有哪些?

3.如何根据资料的性质来选择适当的统计图形?

4.

(1)某中医研究院对 77 例治疗有效的慢性气管炎患者,停药两周后作了随访,结果如下表。试修改些表。

疗效分类(随访前)临床基本控制显效好转
例 数203621
停药两周后疗效随访结果基本控制显效好转无效基本控制显效好转无效基本控制显效好转无效
例 数15221815766573

(2)某医院用中药细辛治疗“阿弗他性口炎”106 例初步观察

《医学统计学》

5.根据下列统计资料试作统计图。

(1)某地居民粪便中蠕虫卵两次检查结果

第一次阳性率(%)第二次阳性率(%)
钩 虫61.2231.36
蛔 虫91.4386.39
鞭 虫17.1416.51

(2) 痢疾杆菌药敏试验结果

制菌药物试验株数敏感度百分比(%)
高敏中敏轻敏不敏合计
老鹳草煎剂24348.530.416.15.0100
丹贞合剂25053.236.410.4-100
呋喃唑酮25020.849.226.83.2100

(3) 某部队 1977 年各月传染病发病人次

月份123456789101112合计
传染病发病人次3471491417104581252249

(4) 224 例胸膜炎病人的年龄分配

病人年龄各组人数占全部病人的百分比
11-4.1
16-13.5
21-44.6
31-27.1
41-8.9
51-1.8
合 计100.0

(5) 某地 1951-1956 年肺结核、白喉的死亡专率

病 名历年死亡专率(每十万人)
195119521953195419551956
肺结核164.4135.879.964.774.563.0
白喉18.72.52.51.01.21.0

第一节 X2 检验

X2(称卡方)检验用途较广,但主要用于检验两个或两个以上样本率或构成比之间差别的显着性,也可检验两类事物之间是否存在一定的关系。

一、两个率的比较

(一)X2检验的基本公式 下页末行的例 3.1 是两组心肌梗塞病人病死率的比较,见表 3.5,其中对照组未用抗凝药。两组病人的病死率不同,抗凝药组为 25.33%,对照组为 40.8%。造成这种不同的原因可能有两种:一种是仅由抽样误差所致;另一种是两个总体病死率确实有所不同。为了区别这两种情况,应当进行 X 2检验。其基本步骤如下:

1.首先将资料写成四格表形式,如表 3.6。

将每个组的治疗人数分为死亡与生存两部分,各占四格表中的一格,这些数字称为实际频数,符号为 A,即实际观察得来的数字。

2. 建立检验假设 为了进行检验,首先作检验假设:两种疗法的两总体病死率相等,为 35%(即 70/200),记为 H:π12。即不论用或不用抗凝药,病死率都是 35%,所以亦可以换一种说法:病死率与疗法无关。

上述假设经过下面步骤的检验后,可以被接受也可以被拒绝。当 H 被拒绝时,就意味着接受其对立假设即备择假设 H 1。此例备择假设为两总体病死率不相等,记为 H 1:π1≠π2

因为我们观察的是随机现象,所以无论是接受或拒绝 H 都冒有一定风险,即存在着错判的可能性。一般要求,当错误地被拒绝的概率 α 不超过一定的数值,如 5%(或 0.05),此值称为检验水准,记为 α =0.05。

3.计算理论频数 根据“检验假设”推算出来的频数称理论频数,符号为 T。计算方法如下:假设两总体病死率相同,都是 35.0%,那么抗凝血组治疗 75 人,其死亡的理论频数应为 75×35.0%=26.25 人,而生存的理论频数为 75-26.25=48.75 人。用同样方法可求出对照组的死亡与生存的理论频数,前者为 43.75 人。后者为 81.25 人。然后,把这些理论频数填入相应的实际频数格内,见表 3.6 括号内数字。

计算理论频数也可用下式(3.4)

TRC=nRnC/N(3.4)

式中,TRC为 R 行与 C 列相交格子的理论频数,nR为与计算的理论频数同行的合计数,nC为与该理论频数同列的合计数,N 为总例数。

例如;表 3.6 第一行与第一列相交格子的理论频数(T11)为

T11=75×70/200=26.25

用两种方法计算,结果是相同的。

4.计算 χ 2值,计算 χ 2值的基本公式为:

X2=∑(A-T)2/t(3.5)

式中,A 为实际频数,T 为理论频数,∑为求和符号。

将表 3.6 里的实际频数与理论频数代入式(3.5)即求得 χ 2值。此例 χ 2=4.929。

从式 3.5 中可看出,实际频数与理论频数之差(A-T)愈小,所得的 χ 2值就愈小,理论频数是根据检验假设推算出来的,若与实际频数相差不大,说明假设与实际情况符合,于是就接受 H,认为两病死率无显著差别;反之,若(A-T)大,则 χ 2值亦大,说明假设与实际不符,就拒绝假设,认为两病死率有差别。但 χ 2值大还是小,要有一个比较的标准,要查 χ 2值表(附表 1),查 χ 2值表前先要定自由度。

5.求自由度 自由度是数学上的一个名词。在统计中,几个数据不受任何条件(如统计量,即样本特征数)的限制,几个数据就可以任意指定,称为有几个自由度。若受到 P 个条件限制,就只有 n - p 个自由度了。例如在四格表中有四个实际频数,如没有任何条件限制,则 4 个数字都可任意取值,有 4 个自由度,当 a +b,,c+d,a+c,b+ d 都固定后,在 a、b、c、d 四个实际频数中,只能有一个频数可任意指定了,因此,四格表的自由度为 1。其计算公式为:

ν=(R-1)(C-1)(3.6)

式中,ν 为自由度,R 为横行数,C 为纵列数。

四格表有 2 行和 2 列(注意:总计与合计栏不算在内)。因此 ν =(2-1)(2-1)=1。

6.求 P 值,作结论 根据自由度查 χ 2值表(附表 1)。此表的左侧 ν 为自由度,表内数字 χ 2值,表的上端 P 是从同一总体中抽得此样本 χ 2值的概率。三者关系是:在同一自由度下,χ2值越大,从同一总体中抽得此样本的概率 P 值越小;在同一 P 值下,自由度越大,χ2值也越大。χ2值与概率 P 呈相反的关系。χ2检验的常用界值为:

χ220.05()P>0.05 在 α =0.05 水准处接受 H,差别不显著

χ20.05≤χ220.01()0.05≥P>0.01 在 α =0.05 水准处拒绝 H O,接受 H 1,差别显著

χ2≥χ20.01()P≤0.01 在 α =0.01 水准处拒绝 H O,接受 H 1,差别显著

这里 α 是预定的检验水准。χ20.05()是当自由度为 ν 时与 P =0.05 相对应的 χ 2值,简称 5% 点,χ20.01()是与 P =0.01 相对应的 χ 2值,简称 1% 点。

当 ν = 1 时,χ20.05(1)3.84,χ20.01(1)=6.63。本例自由度为 1,求得 χ 2=4.929, 介于 3.84 与 6.63 之间,或写成 χ 20.05(1)220.01(1)。由于与 3.84 对应的纵行 P =0.05,与 6.63 对应的纵行 P =0.01,因此与样本 χ 2=4.929 相应的概率介于 0.05 与 0.01 之间,写成 0.05>P>0.01。在 α =0.05 水准处拒绝 H,接受 H 1,两总体率不等。对照组的病死率较抗凝血组高。

在 α =0.05 水准处拒绝 H,说明若在同样情况下作 100 次判断,将有 5 次或不到 5 次的机会,将原没有差别的两总体率错判为有差别,或说这样判断犯 I 型错误的概率不超过 5%。

下面将实例的检验步骤集中列出。

例 3.1 两组心肌梗塞病人的病死率可见于表 3.5,其中对照组未用抗凝药。抗凝血组病死率为 25.33%,对照组为 40.80%,问两组病死率有无显著差别?

表 3.5 两组心肌梗塞病人病死率比较

组别治疗人数死亡人数病死率(%)
抗凝血组751925.33
对 照 组1255140.80
总 计2007035.00

检验步骤如下:

1.将资料列成四格表形式,如表 3.6。

表 3.6 四格表式样

死亡生存合计
抗凝血组19(26.25)56(48.75)75
对照组51(43.75)74(81.25)125
总 计70130200

2.H:两疗法的总体病死率相同,即π1=π2

H1:两疗法的总体病死率不同,即π1π2

α=0.05

3.求理论频数

抗凝血组:

死亡人数为 75×35.0%=26.25 人

存活人数为 75-26.25=48.75 人

对照组:

死亡人数为 125×35.0%=43.75 人

存活人数为 125-43.75=81.25 人

把理论频数填入相对应的实际频数格内,见表 3.6 括号内数字。

4.求 χ 2值 将表 3.6 里的数值代入式(3.5)得,

《医学统计学》

5.求自由度,确定 P 值,作结论

ν=(2-1)(2-1)=1,χ20.05(1)=3.84,χ20.01(1)=6.63,

本例 χ 2=4.929,χ20.05(1)220.01(1),则 0.05>P>0.01,在 α =0.05 水准处拒绝 H,接受 H 1,即两总体病死率不等,对照组病死率较抗凝血组高。

上例告诉我们,两个样本病死率一大一小,在未作检验之前,很难说它们两总体率是否有差别,为了作出正确判断,作 X 2检验。先假设两总体病死率相同,推算理论频数,由实际频数与理论频数计算 χ 2值,二者相差越大,χ2值也越大。本例得 χ 2=4.929,根据自由度为 1 时的 χ 2分布推断,从同一总体内抽样,出现 χ 2值等于或大于 4.929 的概率较小,每一百次中在 5 次以下,1 次以上,因此检验假设被拒绝,而判断为有显著差别。

(二)连续性校正公式 χ2 检验是以连续的光滑曲线做根据的,当自由度为 1 时,χ2检验所得的概率容易偏低,因些需要校正,校正后的 χ 2值比不校正的小一些,校正公式是:

《医学统计学》(3.7)

公式中 A - T 前后两条直线是绝对值的符号。

将表 3.5 资料代入式(3.7)得:

《医学统计学》

检验两个率相差的显著性时(此时自由度为 1),理论上都可用校正公式。但当用公式(3.5)求出的 χ 2值小于 3.84 时,相应的 P 值大于 0.05,表示两个率相差不显著,校正后 χ 2值更小,仍得同样结构,就无须校正;当用未校正公式求出的 χ 2值远远超过 3.84 时,校正后的结论仍相同,在此种情况下也可不校正;当自由度为 2 及以上时,则不必校正。

当用公式(3.5)求出的 χ 2值略大于 3.84 时,校正最为必要,往往会改变原来的结论,举例如下。

例 3.2 表 3.7 是六六六粉的两种配方进行野外烟剂灭黄鼠实验的观察结果。

表 3.7 六六六粉两种配方灭黄鼠的效果

烟薰后鼠洞情况合 计(实验观察洞数)灭洞率(%)
未盗开盗 开
04 号配方13(16.63)9(5.37)2259.1
05 号配方80(76.37)21(24.63)10179.2
总 计933012375.6

现用公式(3.5)及式(3.6)分别计算 χ 2值如下:

《医学统计学》

校正后的 χ 2值小于 3.84,P>0.05,在 α =0.05 的水准处接受 H,认为两种配方灭黄鼠效果无显著差异,这相结论是比较合理的,如果不经校正就会得出错误的结论。

(三)四格表中求 χ 2的专用公式 用上述基本公式(3.5)求 χ 2值,需要求出与实际频数一一对应的理论频数,运算较繁。在四格表中,用下列专用公式较为简便。

《医学统计学》(3.8)

式中 a、b、c、d 为四格表中的实际频数,N 表示总例数(即 N =a+b+c+d)。

现仍以表 3.5 资料为例,先写成四格表形式,如表 3.8。

表 3.8 四格表求 χ 2值专用公式的符号

死 亡生存合 计
抗凝血组19(a)56(b)75(a+b)
对照组51(c)74(d)125(c+d)
70(a+c)130(b+d)200(N)

将实际频数代入式(3.8)得,

《医学统计学》

这里用专用公式求得的 χ 2值与前面用基本公式求得的结果完全不同,有时这两个公式求得的结果小数点后几位可能稍有出入,这是由于受小数四舍五入的影响。

前面已介绍了连续性校正公式(3.7),为使运算更为简便,下面列出专用公式的连续性校正公式(3.9),并以表 3.8 资料代入计算如下:

《医学统计学》(3.9)

所得结果与式 (3.7) 求得的一致。

二、多个率或多个构成比的比较

(一)2×K 表的专用公式 ,前面已讨论了,两个率的比较用四格表专用公式计算 χ 2 值较为简便。如果是多个率比较,就要列成 2×K 表。这里的 K 暂为所比较的组数,2 为每个组内所划分的类型数。求 χ 2值时本可用基本公式计算,但以用下列专用公式为便:

《医学统计学》(3.10)(3.11)

表 3.9 2×K 表形式之一

a1
a2

b1
b2

n1
n2

∑ai∑biN

公式中符号的意义参阅表 3.9,以上两个公式的计算结果是完全一样的。

例 3.3 某地观察磺胺三甲氧吡嗪加增效剂(吡嗪磺合剂)预防疟疾复发的效果,用已知有抗疟疾复发效果的乙胺嘧啶和不投药组作对照,比较三组的疟疾复发率,资料如表 3.10,问三组复发率有无显著差别?

表 3.10 三个组的疟疾复发率

组 别观察例数复发例数复发率(%)
吡嗪磺合剂
乙胺嘧啶
对 照
1996
473
484
76
27
53
3.81
5.71
10.95
合 计29531565.28

χ2检验步骤如下:

1.将表 3.10 资料写成 2×K 表形式,见表 3.11。注意:这里必须把各组的观察例数分为复发和未复发两部分,这样表 3.10 就为写成 2×3 表。

表 3.11 三个组疟疾复发率的比较

复发未复发合 计
吡嗪磺合剂7619201996
乙胺嘧啶27446473
对 照53431484
合 计15627972953

2.H:三个总体复发率相同

H1:三个总体复发率不全相同

α=0.05

3.求 χ 2值 将表 3.11 的数值代入式(3.10)(因为在表 3.11 中,各组的 a 值较小,计算较方便)得:

《医学统计学》

4.求自由度,确定 P 值,作结论

ν=(K-1)(2-1)=(3-1)(2-1)=2,查 χ 2值表得 χ 20.01(2)=9.21,本例 χ 2=39.92>χ20.01(2),P<0.01, 在 α =0.05 的水准处拒绝 H,接受 H 1,即三个组的复发率有显著差别。

本例的结论是三个组的复发率有显著差别,因此,还需进一步说明三组中那两组有差别,可用四格表对每两个率进行假设检验。本例的检验结果是:吡嗪磺合剂与对照组比(P<0.01),乙胺嘧啶组与对照组比(P<0.01),而吡嗪磺合剂与乙胺嘧啶比(P>0.05),说明吡嗪磺合剂有预防疟疾复发的作用,其效果不低于乙胺嘧啶。

本例 2×K 表的 2 是指得发、未复发两项,K 为比较的组数,K=3。如果比较组数只有 2,而构成每组的项数则多于 2,如甲状腺肿的型别构成可分为弥漫型、结节型、混合型三种。这类资料亦同样可用 2×K 表专用公式进行检验。这时把 2 作为比较组数,K 作为项数,检验方法同上,表 3.12 是 2×K 表的另一种形式。

表 3.12 2×K 表形式之二

a1a2……∑ai∑bi
b1b2……
n1n2……N

例 3.4,为研究不同地域甲状腺型别的构成有无显著差别,某省对两个县的居民进行甲状腺肿调查,得资料如表 3.13,问甲乙两县各型甲状腺肿患者构成比有无显著判别?

表 3.13 某省甲乙两县甲状腺肿患者型别构成比较

县名弥漫型结节型混合型合计
甲县48624492
乙县13326051444
合计61926255936

检验步骤如下:

1.H:两总体甲状腺肿型别构成相同

H1两总体甲状腺肿型别构成不同

α=0.05

2.求 χ 2值,将表 3.13 中的数值代入式 3.10 得:

《医学统计学》

3.求自由度,确定 P 值,作结论。

ν=(3-1)(2-1)=2,查 χ 2值表得 χ 20.01(2)=9.21, 本例,χ2=494.36,P<0.01, 在 α =0.05 水准处拒绝 H,接受 H 1,甲、乙两县甲状腺肿型别构成有差别(P<0.01)。甲县以弥漫型为主,而乙县结节型较多,地域与患者的型别构成具有一定的关系。

此类资料经 χ 2检验作结论,如果不显著,说明两组资料的构成比来自同一总体,没有显著差别。如果结论显著,说明两组的构成比来自不同总体,差别有显著性。同时要指出两组构成的主要区别。

(二)R×C 表的通用公式 当资料的行数和列数都超过 2 时称 R×C 表。对此种资料作假设检验时,可用基本公式(3.5), 但运算较繁,如果用 R×C 表的通用公式计算 χ 2值,较为简便。

《医学统计学》(3.12)

式中,Aij为 i 行第 j 列的实际频数,ni为第 i 行的合计数,nj为第 j 行列的合计数,N 为总频数。

这个公式也系由基本公式(3.5)推导出来,式(3.12)也可用以求四格表、2×K 表资料的 X 2值,故称通用公式,用此公式不需计算理论频数,与基本公式(3.5)相比,较为简便。

例 3.5 某院肝胆外科在手术中观察了胆结石的部位与类型得资料如表 3.14, 试分析两者间有无关系存在?

表 3.14 胆结石类型与部位的关系

结石部位总例数例 数百 分 比
胆固醇结石胆红素结石其它胆固醇结石胆红素结石其它
胆囊11870163259.313.627.1
肝外胆管7512392416.052.032.0
肝内胆管2922076.969.024.1
合计22284756337.833.828.4

检验步骤如下:

1.将表 3.14 资料写成 R×C 表形式,见表 3.15.

表 3.15 胆结石类型与部位的关系

结石部位结 构 类 型
胆固醇结石胆红素结石其它合计
胆囊701632118
肝外胆管12392475
肝内胆管220729
合计847563222

2.H:胆结石的类型与部位没有关系

H1:胆结石的类型与部位有关系

α=0.01

3.求 χ 2值 将表 3.15 数值代入式(3.12)得:

《医学统计学》

4.求自由度,确定 P 值,作结论。

ν=(3-1)(3-1)=4,查 χ 2值表得 χ 20.01(4)=13.28,本例 χ 2=64.06<χ20.01。在 α =0.01 水准处拒绝 H,接受 H 1,胆结石类型与部位有显著关系存在(P<0.01), 胆囊内以胆固醇结石居多,肝内、外胆管以胆红素结石为主。

第二节 X2 检验的注意事项

(一)计算 χ2 值时,必须用绝对数,而不能用相对数,因为 χ2 值的大小与频数大小有关。

(二)当自由度为 1 时,需考虑进行连续性校正,当求出的 χ2 值略大于 3.84 时,校正更为必要。因为往往会改变原来的结论。

(三)多组资料进行 χ2 检验时,如理论频数小于 5 的个数占全部理论频数个数的五分之一以上时,要进行适当的并组,但应注意,要并得合理,若比较几个等级资料相差是否显着时,用 Ridit 分析法或秩和检验为好。

(四)假设检验的结论,只提示两样本从同一总体中抽得的概率。当两种疗法的病死率相差显著时,并不证明某疗法疗效差,只是说两样本从同一总体抽得的概率小,因此可能两样本来自不同的总体,差别有意义。当相差不显著时,并不证明两疗法疗效相同,只是说两样本来自同一总体的可能性大,因此,作出有判别的结论,数据不足,至于有、无差别的理由,要从专业上加以探讨:差别的大小,要根据医学上的实际意义来评论。

(五)进行假设检验的资料应合乎随机抽样原则,且各组除处理因素不同外,其他条件应尽量控制其相同。下结论时,不能绝对化,因为显著性界限是人为规定的,相对的。即使是根据 P <0.01 作出的结论,仍有 1% 错误的可能。当检验结果与显著性界限很接近时,可加大样本继续观察,不要急于下结论。

第三章 平均数与变异指标

上章介绍了计数资料的整理与分析,从本章开始介绍计量资料的整理与分析。通过调查或实验收集到的计量资料,是一群大大小小的变量值。为将这群变量值的特点描述出来,当例数较多时,可先编制成频数表,了解变量值的分布情况,然后计算平均数描述其集中位置,计算变异指标描述其离散程度;若倒数较少,亦可直接计算平均数与变异指标。现分述于下。

第一节 平均数

一、频数表的编制与频数分布

计量资料有离散型变量和连续型变量。对离散型变量,可列出变量值及其频数如表 4.1。若变量值较多时,亦可用组段表示如表 4.2。每个组段的起点称下限,终点称上限,上限与下限之差称组距。如表 4.2 第一组的下限是 0,上限是 1。第二组的下限是 2 上限是 3,组距都是 1。归组以后,该组的变量值用组段的中值代表,称组中值。如第一组的组中值为 0.5。

表 4.1 某市居民 1095 天中每天意外死亡人数(1980~82 年)

死亡人数天数
807
1250
231
35
4
5
6
71
8
151
合 计1095

表 4.2 204 名轧钢工人白细胞中大单核所占百分比

大单核数(个 / 每百白细胞)人数
0-124
2-340
4-555
6-737
8-927
10-1118
12-131
14-15
16-171
18-19
20-211
合计204

若是连续型变量,组段的写法与离散型变量的略有不同。如表 4.3 坐高第一组段下限为 61,上限为 62;第二组段的下限为 62,上限为 63。因此,上一组段的上限和下一组段的下限值相同。为便于归组,上限一般不写出来。如第一组写成“61-”,意思是凡坐高在 61 至未离散型变最的数值较大时,亦可按连续型变量写组段,如红细胞数(万 /mm3)的组段应写成 400-419,420-439,…,亦可简化写成 400-,420-,…。这样由组段和频数两部分组成的表称为频数表。下面用表 4.4 资料说明频数表编制步骤。

表 4.3 某市 7 岁男童坐高频数表

《医学统计学》

表 4.4 西安市 7 岁男童 102 人的坐高,cm

64.463.864.566.866.566.368.367.268.067.9
63.264.664.866.268.066.767.468.666.866.9
63.261.165.065.066.469.166.866.467.568.1
69.762.564.366.366.667.865.967.965.969.8
71.170.164.966.167.366.865.065.768.467.6
69.567.562.462.666.567.264.565.767.065.1
70.069.664.765.864.267.365.065.067.270.2
68.068.263.264.664.264.565.966.669.271.2
68.370.865.364.268.066.765.666.867.967.6
70.468.464.366.067.365.666.066.967.468.5
68.369.7

(一)找出原始资料中的最小、最大值 表 4.4 坐高的最大值为 71.2cm,最小值为 61.1cm,最大值与最小值之差称极差为 10.1cm。

(二)定组距 先考虑组数。资料在 100 例以上的一般分 10-15 组。若例数较少,组数可相应少些;例数很多,组数可酌情多些,以能显示分布的规律为宜。此例拟分 10 组。将拟分的组数除极差(10.1/10≈1)得组距的约数。再调整到较方便的数如 0.1、0.2、0.5,1、2、5、10、20、50……等。此例取组距为 1。

(三)写组段 取等于或略小于最小值的整数为第一组的下限。按组距依次写出各组段的下限及短横,见表 4.3 组段行,注意短横“-”不能略去。

(四)划线记数 像选举开票那样,将变量值逐个归入相应的组段,如将 64.4 归入“64-”组,63.8 归入“63-”组。每归入一个变量值,在相应的组段内划一竖线,每逢第五线则作一横线跨在已划出的四条竖线上,这样五线连在一起最后计数时就很方便了。划完后将每个组段内的线条数写出,再将各组频数合计,频数表就编好了。

若事先不能确定合适的组数,可先分细些,需要时再将相邻两组合并。而分粗了,再要分细,则只得重划。

表 4.4 的资料编成频数表(见表 4.3)后,可看出变量值的分布情况,若绘成直方图就更直观。从图 4.1 可看到横坐标约为 66.5cm 处直方最高,表示变量值围绕在 66.5 左右的最多;两侧对称下降,大于 66.5 和小于 66.5 的变量值个数基本相等。这种类型的分布为对称分布。第五章介绍的正态分布是其中最常见的一种。

《医学统计学》

图 4.1 西安市 7 岁男童坐高分布

此外,如图 4.2,变量值愈小频数愈多图形呈“L”形,图 4.3 的频数集中在变量值较小的一边,右侧尾部拖得很长。后两种属偏态分布。这三种频数分布都只有一个高峰称单峰分布。为更准确地说明分布的特征,对形状相同的分布作出集中位置和离散程度的比较,就需计算频数分布的一些特别值。如平均数、百分位数、极差、标准差、变异系数等。

《医学统计学》

图 4.2 某市 1095 天中居民意外死亡人数(1980-1982)

《医学统计学》

图 4.3 204 名轧钢工人白细胞中大单核所占百分比

二、众数、中位数、百分位数的意义及计算法

(一)众数 出现次数最多的变量值,或频数表上频数最多组的组中值即为众数。如表 4.3 中坐高的众数是 66.5cm。这样仅由观察所得的众数称为观察众数。同一资料常因所用组距不同和下限取值不同,观察众数稍有出入,故又称概约众数,与观察众数相对应的尚有理论众数。理论众数的算法根据频数曲线类型的不同而异,数学上为与极大值相应的横坐标。

(二)中位数及百分位数

1.中位数 将 n 个变量值从小到大排列后,居中的一数就是中位数,符号为 M,有的书上用 Md。它将变量值分为两半,一半比它小,一半比它大。

X1<x2<…<m<…xn-1<xa</x</m<…x</x

当 n 为奇数时

《医学统计学》(4.1)

当 n 为偶数时

《医学统计学》(4.2)

当资料呈明显偏态,或有个别的特小、特大值存在时,中位数的代表性往往比均数好。例如有 5 个变量值 8、9、9、10、19。其中 4 个在 9 左右,但由于受数值 19 的影响,均数为 11,不能很好代表中等水平。求中位数

《医学统计学》

比较符合实际。

根据频数表计算连续型变量的中位数可用式(4.3)或式(4.4)

《医学统计学》(4.3)

《医学统计学》(4.4)

式中 L、U 分别为中位数所在组的下限及上限,A1为小于 L 的各组的累计频数,A2为大于 U 的各组的累计频数,fM、i 分别为中位数所在组的频数和组距。现用表 4.5 说明计算步骤如下:

(1)求出中位数的位置。在频数表上,数据已由小到大排好了。中位数将频数等分为 2,因此先计算 n /2,得中位数的位置。

n/2=157/2=78.5

(2)列出频数表、计算累计频数。列频数表时,组段的短横“-”写在两个组段下限之间,其意义仍与写在右边的相同,见表 4.5 第(1)栏。

第(3)栏为累计频数。此例自上而下累计到略小于 n / 2 为止得 A 1=41,表示住院天数为 10 天及以下的有 41 个人。若要知道第 78.5 人的变量值,就需要从 10-15 组内再累计(78.5-41=)37.5 人。假定该组的 49 人在 10-15 天内均匀分布着(见图 4.4),那么只要在 10 天上再加(78.5-41)/49 个组距便是中位数了。所以

《医学统计学》

用符号表示见式(4.3)。

若将频数自下而上累计到略小于 n / 2 为止,则得 A 2=67。也得出中位数在 10-15 组段内。

《医学统计学》

图 4.4 中位数计算示意图

(3)写出 L 或 U、fM及 i。

(4)代入公式得 M。

例 4.1 求杆菌痢疾治愈者 157 名住院天数的中位数。

n/2=157/2=78.5

表 4.5 杆菌痢疾治愈者的住院天数

《医学统计学》

L=10 或 U =15,fM=49,i=5。

代入公式

《医学统计学》

杆菌痢疾治愈者住院天数的中位数为 13.8 天。

中位数既然把频数等分为二,所以从另一端算起,用式(4.4)可得到同样的结果。

此例若计算治愈者平均住院天数得 17.9 天。从频数表上可看到 157 名患者中住院天数少于 15 天的就有 90 名,占 57.3%,因此中位数 13.8 天的代表性优于均数 17.9 天。

2.百分位数 中位数将频数等分为二,亦称二分位数。若将频数等分为四,则称四分位数,共有三个四分位数,即第一、第二、第三四分位数。第二四分位数即中位数。同理,将频数等分为十或一百的分位数称十分位数或百分位数。其实上述各种分位数都可用百分位数表示。百分位数的符号为 P x,X 代表第 X 百分位。例如第一四分位数、中位数可分别以 P 25、P50表示。计算百分位数的方法与中位数相似,只是式(4.3)中的 n / 2 以 nx/100 代替,M 以 X 代替。

《医学统计学》(4.5)

式中 L X、fx、ix分别为 P x所在组的下限、频数及组距。A 为小于 L x各组的累计频数。

例 4.2,求例 4.1 中住院天数的 P 90

(1)计算《医学统计学》

(2)累计频数自上而下至略小于 141.3,见表 4.5 第(4)栏,得 A =135。知 P 90在 30-35 组内,因此 Lx=30,i=5,fx=7

(3)代入公式

《医学统计学》

第 90 百分位数为 34.5 天,说明有 90% 的患者住院天数在 34.5 天以下。

三、算术均数与几何均数的意义及计算方法

(一)算术均数 简称均数。设观察了 n 个变量值 X 1,X2,……Xa,一般可直接用式(4.6)求样本均数 X。

《医学统计学》

式中∑是总和的符号,n 是样本含量即例数。本书在不会引起误解的情况下简写成

X=1/n∑X(4.6)

例 4.318-24 岁非心脏疾患死亡的男子心脏重量(g)如下,求心重的均数。

350320260380270235285300300200
275280290310300280300310310320

X=1/20(350+320+…+320)=5875/20=293.75g

样本均数是总体均数的估计值,它有两个特性。(1)∑(X-X)=0,(2)∑(X-X)2为最小,前者读者

可自证,后者证明如下:

设:a≠X,则 a=X±d d>0

∑(X-a)2=∑(X-X±d)2

=∑[(X-X)±d]2

=∑(X-X)2±2d∑(X-X)+Nd2

从第一个特性知∑(X-X)=0,因此 2d∑(X-X)=0,

∑(X-a)2=∑(X-X)2+Nd2

N 是例数,不可能为负,所以 Nd2也不会是负数。

∑(X-a)2>∑(X-X)2,∑(X-X)2为最小。

当用电子计算机处理大量实验数据,考虑到有较大舍入误差时,则先取一较近均数的常数 c,然后用式(4.7)计算,可提高均数的精度。

X=C+1/n×(Xi-C)(4.7)

若每输入一个变量值后都希望得到均数,那么可用式(4.8)

X=Xn-1+1/n×(Xn-Xn-1(4.8)

例 4.4 仍用例 4.3 资料,已算得前 19 例心重的 X 10=292.37, 又测得 X 20=320,求 X 20

X20=292.37+1/20×(320-292.37)=293.75g

若相同的变量值个数较多,或对频数表资料求均数时,可用式(4.9)计算 X。

《医学统计学》或简写为 X=1/n∑fX (4.9)

式中 K 为不同变量值个数,或频数表中的组段数。Xi 为第 i 个不同的变量值或频数表上的组中值,fi 为第 i 个变量值的频数。

例 4.5 计算表 4.5 菌痢治愈者的平均住院天数。

X=1/157(3×2.5+38×7.5……+1×77.5)=17.9 天

式(4.9)中某变量值的频数愈大,则该变量值对 X 的影响亦愈大。因此,频数又称权数,这样

计算出来的均数又叫加权均数。亦有根据变量值的重要性进行加权,计算加权均数的。

(二)几何均数 设 n 个变量值 X 1,X2,……,Xa 呈对数正态分布,其几何均数 G 为

《医学统计学》

式中∏为连乘的符号。当变量值较多时,乘积很大,计算不便,常改用下式计算

《医学统计学》(4.10)

《医学统计学》(4.11)

式中符号含义同式(4.6)与式(4.9)。

例 4.6 求下表中麻疹病毒特异性 IgG 荧光抗体的平均滴度。

表 4.6 52 例麻疹患者恢复期血清麻疹病毒

特异性 IgG 荧光抗体滴度

IgG 滴度倒数例数
403
8022
16017
3209
640
12801

G=log-1[1/52×(3log40+22log80+…+log1280)]=129.3

麻疹患者恢复期血清麻疹病毒特异性 IgG 荧光抗体的平均滴度为 1:129。

式(4.10)包含三个步骤,(1)令 X i=logXi,则式(4.10)可写成《医学统计学》;(2)1/n∑Xi

即对数数值的均数 X;(3)将 X 取反对数即得几何均数 1og-1X=G。这里不难理解,若将这种资料作对数变换后,即可用式(4.6)至式 (4.9) 的各式计算均数,得到结果后再取反对数即得几何均数。读者可自已验证。

四、运用平均数的注意事项

平均数是描述一群同质变量值集中位置的特征值,用来说明某现象或事物数量的中等水平。通常用平均数作为算术均数、几何均数、众数、中位数等的统称,而以均数作为算术均数的简称。

1.同质的事物或现象才能求平均数 我们检查 200 名正常人的红细胞数(万 /mm3)计算平均数,定出正常值范围,作为诊断贫血的依据之一。如果正常人中混有贫血患者,那么求出的平均数既不能说明正常人也不能说明贫血患者,有人把它称为虚构的平均数,因为它模糊了数量特征,不能提供分析的依据了。因此计算平均数以前必须考虑资料的同质性。有人研究某药物的利尿作用,观察了二条狗、三头兔子用药前后的排尿滴数,曾将狗与兔子的排尿滴数加在一起求平均数。由于狗体大,排尿滴数较兔子的多,得到的平均数对狗来说似嫌少,而对兔子来说又显得太多,这是虚构平均数的又一例。

像狗与兔子,贫血患者与正常人的不同质是显而易见的。但即使是正常人,性别、年龄、地区不同,红细胞数的均数也有差异。那么怎样才算是同质呢?是否同质,要根据研究目的而定。例如研究痢疾患者的平均治愈日数时,要考虑不同病原菌、不同型别(急性、慢性等)的患者是不同质的。但当研究传染病的住院日数时,则不同疾病(痢疾、伤寒、……)是不同质的,而所有痢疾病人,不论由何种病原菌引起,或是何种型别都认为是同质的了。若研究各医院的平均住院天数时,医院类型(传染病院、儿童医院、综合医院、……)以及同类医院中,科室(内、外、传染……)设置及床位分配不同等就是不同质的了。不同质的事物就要分组求平均数,以便分析比较。因此科学的平均数是建立在分组的基础上的。

2.用组平均数补充总平均数 表 4.7 是某院 1983 年的治愈者平均住院天数。总均数为 18 天。但从表中可见,它所包含的 20 类(其他类除外)的疾病中,变态反应及中毒、小儿科疾病住院天数最短为 9 天,而结核病的却长达 60 天。住院天数高于总均数的有 10 类,治愈人数共 1358 人,占治愈总人数(其他类除外)的 35%。若医疗质量基本不变,多收结核病人,住院天数的总均数无疑会延长;而多收小儿患者,总均数就会缩短。因此如没有收容病种的分析,仅从总均数的延长或缩短来看医疗质量是不科学的。而对各时期同种疾病的住院天数进行分析,比较适宜。

表 4.7 某医院 1983 年各类疾病治愈者的平均住院天数

病类治愈人数平均住院天数病类治愈人数平均住院天数
传染病寄生虫病43713外科疾病54918
结核病10960外伤38328
呼吸系疾病24614肿瘤6534
消化系疾病25524眼科疾病11214
内分泌疾病4135耳鼻喉科疾病41710
循环系疾病3437口腔科疾病3012
血液及造血系统疾病733皮肤科疾病22422
神经系疾病11125妇产科疾病7812
变态反应及中毒439小儿疾病6019
风湿病2110其他3519
泌尿系疾病12921合计392718

3.根据资料的分布选用适当的平均数 计量资料如是单峰对称分布,宜用均数,亦可用中位数。若是偏态分布则中位数的代表性常较均数为好。某些传染病的潜伏期、抗体滴度、细菌计数、率或比的变化速度及某些物质浓度等,其频数分布明显偏态,但经对数代换后近于正态分布的,如图 4.3 资料,应计算几何均数以描述其中等水平。

第二节 变异指标

一、变异指标的意义及种类

设有甲乙两人,对同一名患者采耳垂血,检查红细胞数(万 /mm3),每人数五个计数盘,得结果为

合计均数
4804905005105202500500
4404605005405602500500

两人计数的均数都是 500,能说两人的检验技术相同吗?不能,因为甲的计数结果比较密集,而乙的分散,因此甲的检验精度显然比乙的高。从上可以看出:描述一群变量值,除用平均数等表示其集中位置外,还要说明其分散或变异情况。说明变异情况的特征值称变异指标。变异指标的种类较多,下面分别介绍极差、四分位数间距、均差、方差、标准差及变异系数。

1.极差 最大值与最小值之差称极差(或全距),符号为 R,是变异指标中最简单的一种。如上例甲计数的极差为 520-480=40,乙的为 560-440=120。可见乙的计数较甲的波动大。一般把最小值与最大值写在括号里,附在极差的后面。如上例写成 40(480~520)与 120(440~560)。其单位与变量值的相同。

当调查例数增多时,遇到较大或较小极端值的机会就加大,因此最大值与极差随着例数的增多而加大,但最小值却随着例数的增多而变小。

极差计算简便,但只考虑了最小、最大值,因此易受个别极端值的影响,且随例数的多少而变动,不稳定。仅用于粗略地说明变量值的变动范围。但在正态分布中可用以估计标准值范围,详见有关文献。

2.四分位数间距 极差的不稳定主要是受两极端数值的影响,于是有人将两端数据按比例去掉一定例数,这样所得数据就比较稳定了。例如两端各去掉 25%,取中间 50% 数据的数值范围,那么只要计算 P 25与 P 75,求 P 75与 P 25之差即得四分位数间距,符号为 Q。

Q=P75-P25(4.12)

例 4.7 试计算表 4.8 七岁男童坐高的四分位数间距

求 P25的位置 102×.25=.25.5.

求 P75的位置 102×.75=.76.5.

求累计频数得:

L25=65,L75=68,

A25=22,A75=75,

f25=15, f75=13,i=1

表 4.8 7 岁男童的坐高

坐高(cm)例数(f)累计频数
61-11
62-34
63-48
64-1422
65-1537
66-2158
67-1775
68-1388
69-795
70-5100
71-2102
合计102

代入式(4.5)得:

《医学统计学》

Q=68.12-65.23=2.89 cm

有 50% 的 7 岁男童,坐高在 65.23~68.12cm 之间,其四分位数间距为 2.89cm。

3.均差 四分位数间距虽比极差稳定,但仍只是两点之间的距离,没有利用每个变量值的信息。于是有人计算每个变量值与均数(或中位数)差的绝对值之和,然后平均称为均差(或平均直线差)作为变异指标之一。

《医学统计学》(4.13)

例 4.8 试计算 4.3 中,心重的均差。

由例 4.3 知 X =293.75g,代入式(4.13)得

《医学统计学》

4.方差 式式(4.13)中用变量值与均数之差的绝对值之和∑∣X-X∣,而不用离均差之和∑(X-X)是因为∑(X-X)=0,不能说明变异情况,故取绝对值以去掉负号。亦有人用平方的办法,即用离均差平方和∑(X-x)2,既去掉了负号,又提高了指标的灵敏性。因为数值愈大,平方后增大的愈多,所以离均差稍有变化,就能从指标上反映出来。例如有甲乙两组数据如下:

X∑∣X-X∣∑(X-X)2
甲组101112131412610
乙组91212131412614

乙组仅有两个数据与甲组的不同,这种不同从∑∣X-X∣或均差上是反映不出来的,但从∑(X-X)2上却反映出来了。以∑(X-X)2组成的变异指标有方差与标准差。方差是标准差的平方,将在第八章讨论,下面先介绍标准差。

二、标准差

1.标准差的公式 样本标准差是用得最多的变异指标,其公式为

《医学统计学》(4.14)

式(4.14)中的 n - 1 是自由度。n 个变量值本有 n 个自由度,但计算标准差时用了样本均数 X,因此就受到了一个条件即∑X= nX 的限制。例如有 4 个数据,它们的均数为 5。由于受到均数为 5 的限制,4 个数据中只有 3 个可以任意指定。如果任意指定的是 4、3、6,那么第 4 个数据只能是 7,否则均数就不是 5 了。所以标准差的自由度为 n -1。

2.标准差的计算

(1)按基本公式(4.14)计算

例 4.9 用例 4.3 资料计算心重的标准差。

已算得 X =293.75g,代入式(4.14)得

《医学统计学》

(2)递推法当用电子计算机进行计算,希望每输入一个数据,都能得到 X 与 S,则将式(4.8)与式

(4.5)配合计算。

《医学统计学》(4.15)

这里 S n表示 n 个数据的标准差,Sn-1表示 n - 1 个数据的标准差。Xn是第 n 个数据,Xn-1是 n - 1 个数据的均数。

例 4.10 仍用例 4.3 资料,已算得前 19 例心重的 X 19=292.37,S19=38.71。X20=320,代入式(4.15)得

《医学统计学》

(3)直接法 不需先计算均数,直接用变量值代入式(4.16)或式 (1.17) 计算。

《医学统计学》(4.16)

《医学统计学》(4.17)

式(4.16)的分子是由式(4.14)的分子简化而得来的,证明如下。

《医学统计学》

例 4.11 用 ELISA(酶联免疫吸附测定)法检测 vero-E6,细胞培养上清正常标本 10 份的结果(100XOD490值)为 2,3,3,4,4,5,5,5,6,8,求标准差。

若用式(4.16)则先计算

∑X=2+3+3+…+6+8=45

∑X2=22+32+32+…62+82=229

若用式(4.17)则先计算

∑fX=1×2+2×3+…+1×6+1×8=45

∑fX2=1×22+2×32+…1×62+1×82=229

然后代入式(4.16)或式(1.17)结果相同。

《医学统计学》

三、变异系数

上述各种变异指标可用来比较同类事物变量值间的变异情况。各变异指标的共同点是:值小表示变量值密集,值大表示变量值分散。但在有些情况下用标准差等变异指标来比较就不适宜了。如某地 7 岁男童身高均数为 123.10cm,标准差为 4.71cm; 体重的均数为 22.29kg,标准差为 2.26kg。由于单位不同,我们不能因为 4.71>2.26 而说身高的变异大于体重,需要有另一个指标,它不受单位的限制,那就是变异系数,其公式为:

CV=S/X×100%,X>0(4.18)

也就是将标准差化为各自均数的百分数,然后比较。这样不但可以比较单位不同的变量值间的变异,而且可以比较均数相差悬殊的变量值间的变异。

上述 7 岁男童身高、体重的变异系数分别为

身高 CV=4.17/123.10×100%=3.83%

体重 CV=2.26/22.29×100%=10.14%

可见同一批儿童的体重变异比身高的大。

例 4.12 被试者 9 人,试验时坐在舒适的牙科椅上测口腔压力波幅 PcmAq(厘米水柱)。然后外加呼吸阻力 20cmAq(1/sec),5 分钟时再测口腔压力波幅结果如下。试比较外加呼吸阻力前后,口腔压力波幅的变异。

表 4.9 外加呼吸阻力前后的口腔压力波幅

口腔压力波幅,cmAg

口腔压力波幅,cmAg
XSCV(%)
加阻力前1.2180.25621.019
加阻力后7.2400.6338.741

外阻力前口腔压力波幅的变异较大。

外加呼吸阻力前后的口腔压力波幅的单位都是 cmAq,如直接比较两个标准差,可能会得出加阻力后数值变异较大的结论。但由于两均数相差悬殊,加阻力后的均数几乎是加阻力前的 6 倍,因此就不宜直接比较标准差而应比较它们的变异系数。

变异系数还常用于比较多个样品重复测定的误差等。

运用变异系数时应注意(1)有关的事物间才能作比较,不要将风马牛不相及的东西硬拉在一起作比较;(2)均数小于标准差时应考虑其实际运用价值。因为在这种情况下,可能誇大变异,故不宜使用;(3)比较两变异系数间是否真有差别,亦应作假设检验,不能只看表面值就下结论。

[附]比较两变异系数可用 u 检验,其公式为

《医学统计学》

式中 V 为以小数表示的变异系数,SV2是变异系数的标准误的平方,n 是样本含量。u 是正态离差系数。

例 4.13 比较例 4.12 中两总体变异系数间有无差别。

H:两总体变异系数相等

H1:两总体变异系数不等

α=0.05

《医学统计学》

u>u0.05,0.05>P>0.01, 在 α =0.05 的水准处拒绝 H,接受 H 1,两总体变异系数不等。外加呼吸阻力前的口腔压力波幅的变异较大。

四、运用变异指标的注意事项

1.变异指标表示变量值的变异情况或离中趋势,常与位置指标平均数结合运用,说明变量值集中的位置与离散程度。

2.变异指标种类虽多,但任一变异指标,其值大表示变异大,数值参差甚;值小表示变异小,数值较集中。比较两个或几个同类事物的变异,要用同一变异指标。

3.正态分布资料宜用均数与标准差(有时用方差)描述集中与离散情况,记为 X±S。有了均数与标准差就可根据正态分布理论将频数分布描绘出来,进一步可作正常值范围估计与假设检验等(详见第五至第七章),应用较广。为便于计算,正态分布资料亦可用中位数、百分位数和四分位数间距等描述,其结果与用均数、标准差相近。

偏态分布资料宜用中位数及四分位数间距、均差等描述。尤其在资料分布呈明显偏态时,随着例数的增多,中位数、四分位数间距及均差的代表性和稳定性明显优于均数、标准差及方差。

众数和极差只用来对单峰资料作概括的描述。

4. 比较几组资料的变异程度,若各组资料的单位不全相同,或均数相差悬殊时,用变异系数。

5.判断几个方差或变异系数间有无显著差别,需作假设检验,不能只看表面值。详见第七、第八章有关内容。

练习题

1.

19.012.014.014.08.213.06.512.015.017.2
12.012.725.08.520.017.08.48.013.015.0
20.013.013.014.015.07.910.59.510.012.0
6.511.012.57.514.517.512.010.011.011.5
16.013.010.511.014.07.514.011.49.011.1
10.010.58.012.011.519.010.09.019.010.0
22.09.012.08.014.010.011.511.015.016.0
8.015.09.98.512.59.618.511.012.012.0

2.测得某地 300 名正常人尿汞值,其频数表如下。试计算均数、中位数、何者代表性较好。

300 例正常人尿汞值(μg/l)频数表

尿汞值例 数尿汞值例 数尿汞值例 数
0-4924-1648-3
4-2728-952-
8-5832-956-2
12-5036-460-
16-4540-564-
20-2244-68-1

3.将表 4.4 资料分别用 0.5cm、2cm 为组距编制频数表,并与表 4.3 的频数分布进行比较,你认为何者显示变量值分布的特征较好?

4.有 5 个变量值 7、9、10、14、15,试计算 X 及∑(X-x)。

5.下表为 10 例垂体催乳素微腺瘤经蝶手术前后的血催乳素浓度,试分别求术前、术后的均数,标准差及变异系数。应以何指标比较手术前后数据的变异情况?能说手术前数据的变异大吗?为什么?

手术前后患者血催乳素浓度(mg/ml)

例号血催乳素浓度例号血催乳素浓度
术 前术 后术 前术 后
127641626643
2880110750025
3160028081700300
4324619500215
53981051022092

(资料来源:中华医学杂志,63(12)P730,1983

6.某地微丝蚴血症者 42 例治疗后 7 年用间接荧光抗体试验测得抗体滴度如下。求平均滴度。

抗体滴度的倒数10204080180
例 数5121375

(资料来源:中华预防医学杂志:17(1),P22,1983)

第四章 正态分布与正常值范围估计

第一节 正态分布及其性质

一群变量值可能用平均数描述集中的位置,用变异指标描述离散情况,而频数表则把变量值的分布描绘得更具体。为了直观还可把频数表画成直方图。如第四章中曾将 7 岁男童坐高的频数分布绘成图 4.1。从图中可看出数据集中均数周围,左右基本对称,离均数愈近数据愈多,离均数愈远数据愈少的特点。医学科研中如健康人的红细胞数、血红蛋白量、血清总胆固醇,同年龄同性别儿童的身高、体重等,虽然数据各异,但画出的直方图图形是类似的。可以设想,这种类型的资料,如果调查例数无限增多,所用组距又无限的小,那么直方顶端就连成了一条光滑的曲线。这条曲线,典型地反映了这类资料的分布情况,数学上称为正态曲线,其方程为

《医学统计学》

式中 n 为总频数,X 为变量值,μ 为均数,σ 为标准差,Y 为纵高,e=2.71828……,π=3.14158……。在一个总体中 n、μ、σ、e、π 都是常数,只有 X 在变,所以 Y =f(x)。

式(5.1)亦可写成:

《医学统计学》

由上式可看出曲线的性质:

1.曲线左右对称。X- μ 无论是正或负,只要绝对值就相等,Y 值就相等。所以只要 X 与 μ 的距离相等,Y 就相等。Y 值以 X = μ 为对称轴。

2.中位数、均数、众数重合。正态曲线在横轴上方。当 X = μ 时,e=1,Y 为极大,所以均数与众数密合。由于曲线左右对称,所以均数亦即中位数。e 的指数愈大,Y 愈小,但不会得负值,所以 Y >0,曲线在横轴上方。

3.随着(X-μ/σ)的绝对值的增加,曲线由平均数所在点向左右两方迅速下降。

《医学统计学》

4.离平均数左右 1σ 处为曲线拐点。在 μ±σ 以内曲线向下弯曲,以外则向上弯曲。

这种类型的资料,数据值虽各不相同,但都有其均数与标准差,如果横轴上各以其均数为原点,标准差为单位,并令 x =X-μ,那么(X-μ)/ σ 可写成 x /σ,称为正态离差 u,

《医学统计学》(5.2)

再令总频数为 1。这时曲线以 μ 为原点,以 σ 为单位,称为标准正态曲线,其公式为

《医学统计学》(5.3)

以 μ 为均数,σ2为方差的正态分布可记为 N(μ,σ2),因此标准正态分布可记为 N(0,1)。

《医学统计学》

图 5.2 标准正态曲线

第二节 正态曲线下面积

直方图是以直方的面积表示数量的。直方顶端连成曲线后,整个曲线下面积就表示总频数,用 1 或 100% 表示。一定区间曲线下面积就是出现在此区间的频数与总频数之比,或出现在该区间的各个变量的概率之和。例如以 7 岁男童 102 人为 100%,则若要知道坐高在 66 至 68cm 间的人数占总人数的百分比,只要知道曲线下横坐标为 66 至 68cm 区间内的面积就可以了。因此求出曲线下面积有其实用意义。

曲线下某区间的面积,可根据曲线方程用积分求得,但若每次应用时都要用积分计算,那是很麻烦的。前人已将标准正态曲线下 0 至各 u 值的面积计算出来的了。由于各书列的方式不完全相同,所以使用时要注意表上的图示或说明,仍用 7 岁男童坐高资料为例说明正态曲线下面积表(附表 2)的使用方法。该表左侧及上端为 u 值,表中数字为横轴自 0 至 u 曲线下的面积。

例 5.1 根据表 4.3 的资料计算得坐高的 X =66.72,S=2.08,试估计总体中坐高在

(1)66.72-68.80cm 间。

(2)66~68cm 间及(3)68~70cm 间的人数各占总人数的百分比。

(1)求坐高在 66.72~68.80cm 之间曲线下面积。

①求 u(u=(X-μ)/σ,这里分别以 X、S 作为 μ 与 σ 的估计值)

(66.72-66.72)/2.08=0

(66.80-66.72)/2.80=1

标准正态曲线下面积见图 5.3(a)。

②查附表 2,u 自 0 至 1 的面积,即查 u =1.00,得 α /2=0.3413。坐高在此区间内的人数占总人数的 34.13%。

(2)求坐高在 66~68cm 之间曲线下面积。

①求 u

(66-66.72)/2.08=-0.346

(68-66.72)/2.08=0.615

标准正态曲线下面积见图 5.3(b)

②查附表 2 u=0.346,得 α /2=0.1353(经内插法求得,下同)

u=0.615,得 α /2=0.2308

0.1353+0.2308=0.3661

坐高在此区间内的人数占总人数的 36.61%,即 102×0.3661=37.3 人,与实际观察所得 38 人相近。

《医学统计学》

图 5.3 正态曲线下面积之计算

(3)求坐高在 68~70cm 间的人数占总人数的百分比。

①求 u

(68-66.72)/2.08=0.615

(70-66.72)/2.08=1.577

标准正态曲线下面积见图 5.3(c)

②查附表 2,u=1.577, 得 α /2=0.4426

u=0.615, 得 α /2=0.2308

0.4426-0.2308=0.2118

坐高在此区间内的人数点总人数的 21.18%,即有 102×0.2118=21.6 人。与实际观察所得 20 人相近。

从例 5.1 可见,因为正态曲线对称于原点,所以不论 u 为正还是负,绝对值相同时,自 0 至 u 的面积相同。查附表 2 时,若两个 u 值中有一个是 0,按另一 u 值查得 α /2;若两个 u 异号,将查出的两个 α / 2 值相加;若两个 u 同号,则将大的 α / 2 值减去小的即得。但不能将两个 u 值相加(或减)后再查面积。

例 5.1 已求得 u 从 0 - 1 时,α/2=0.3413, 所以 u 从 -1~1,曲线下面积为 0.6827,说明有 68.27% 的变量值在 μ±σ 的范围内(见图 5.2)。查附表 2,当 u =1.96 时,α/2=0.475,因此 μ±1.96σ 的范围内包含有 95% 的变量值,只有 5% 的变量值在此范围外。由于曲线左右对称,因此有 2.5% 的变量值等于或小于 μ -1.96σ;2.5% 变量值等于或大于 μ +1.96σ。同理,查附表 2,u=2.58 时,α/2=0.495, 因此 μ±2.58σ 范围内有 99% 的变量值,在此范围外的仅占 1%。u=1.96 和 u =2.58(准确说是 u =2.5758)是正态分布中两个重要的界值,称 5% 界和 1% 界,今后在正常值范围估计、假设检验等中常常要用到。

如果已知资料呈正态分布,那么理论上只要知道 μ 和 σ 就可根据曲线下面积表求出任两值之间变量值的个数,也就是说能算出变量值的频数分配。但实际上 μ 和 σ 常常无法获得,因此只能用 X 和 S 作为 μ 和 σ 的估计值,来估计总

体中变量值(个体值)的分布。

第三节 正常值范围的估计

在医学科研中有时需要根据样本数据推论总体中个体值范围,其中最常用的是估计正常值范围。

一、正常值范围的意义

正常人体的解剖、生理、生化、心理等各种数据的波动范围称正常值范围,简称正常值。如成人白细胞总数的正常值为 4000~10000 个 /mm3。以一定数量“正常人”为样本,观察某个或几个变量,根据所得样本数据,推论总体中变量值的范围,称正常值范围估计。一些与人体有关的外界环境如噪音强度、粉尘浓度、昆虫密度、水中微量元素的含量等,在某一地域、某段时期内亦在一定范围内波动;某病患者在病程的某段时期内,某种检验结果亦常在一定范围内波动。虽然这些范围不一定是正常的,有的超过了卫生标准或正常值,但若从样本数据估计总体中变量值的范围来说,那么也可以用本章的估计方法,得出的波动范围可称为个体值范围。

二、确定正常值范围的一般原则和步骤

1.确定研究总体。即对研究总体的同质性基础作出规定。以“正常人”为例,所谓正常人不是指任何组织与器官的形态及机能都无异常的人,而是指排除了影响被研究指标的疾病和有关因素的人。例如某单位研究血清谷一丙转氨酶活性的正常值,选取“正常人”的条件为无肝、肾、心、脑、肌肉等器质性疾患,近期无特殊用药史(如氯丙嗪、异烟肼等),测定前未作剧烈运动等。上述条件就是保证研究对象的同质性作出的规定。但不允许以所研究指标值的大小来划分是否“正常人”。对研究总体,如“正常人”的规定要根据研究目的、技术力量与水平以及人力物力等条件来考虑,往往牵涉到多方面的专业知识。但一般可从地区、民族、性别、年龄、劳动条件(如是否与有害物质接触)、时间(季节与昼夜)、月经、妊娠、饮食、药物、生活习惯等来考虑。例如红细胞数及血红蛋白量,高原居民与平原不同,男子各异;人体血清胆固醇含量随年龄的增长而增加,妊娠期高于非妊娠期,冬季高于夏季,且受饮食影响;服用某些药物可直接增加检测的有关成分或干扰检测结果的准确性。

各种影响因素,有些可通过询问与体检严格控制,如排除那些与被研究指标有关的各病患者,或处于妊娠、经期的妇女,近期内服用某种药物者等;有些可用对调查资料分组统计的办法加以控制或研究。如先按男、女分别统计,然后检验两组数据的分布、均数与标准差等,有无差别,若有差别则分别求正常值,否则可合并求通用的正常值。

2.确定观察例数。正常值范围的影响因素复杂,要使样本分布能正确估计总体分布,例数不能太少,一般认为应在 200 例左右。数据变异不大,观测比较精确的,例数可相应少些;影响因素复杂、数据变异大,观测方法不够稳定的,例数相应要多一些。但要防止片面追求数量,而抽选样本不按规定,观测方法不统一,粗率马虎,以致影响原始数据的可靠性。

3.统一测定方法,控制实验误差,保证数据的可靠性。为达到上述要求应注意对检测人员(医生、检验人员等)的培训,以统一认识、统一方法和操作,标准化仪器和试剂,建立质量控制防止记录差错等。但也要尽量与应用正常值范围时的实际情况相一致,例如临床检验每一个标本只作一次,那么为确定正常值的检验每个标本亦只作一次,不能作两个平行样本求平均数后再估计正常值。否则可能定出的正常值范围较窄。

4.确定取单侧还是双侧界值。某些指标如白细胞总数,无论过低或过高都不正常,因此需要确定下限和上限两个界值,称双侧界值。有的指标如肺活量一般只认为过低是不正常,所以只需定下测界值,即下限;但血铅只是过高不正常,只需定上限。只需定下限或上限的,称单侧界值。确定取单侧还是双侧界值,应根据业务知识与指标用途。

5.确定适当的百分范围。调查一定数量的正常人若以某指标的最小、最大值作为正常值范围,常因调查例数的增加等遇到少数极端值,使正常值范围不稳定。因此统计上常采用一些方法,删去一定比例的极端值,使得出的正常值能较稳定地反映绝大多数正常人该指标的数值。那么绝大多数是指正常人的百分之多少呢?一般包括正常人的 80%、90%、95% 或 99% 等。这样,若按单侧计算,相应地将有 20%、10%、5% 或 1% 的正常人该指标值在正常值范围以外;若按双侧计算,相应地,过高、过低者各有 10%、5%、2.5% 或 0.5%。这些指标值在正常值范围以外的正常人,将被错判为不正常。将正常错判为不正常,称为 I 型错误,或假阳性,其假阳性率或误诊率用 α 表示。但亦有些病人的指标值,可能落在正常值范围以内,这时就会将病人错判为正常人,这种错判Ⅱ型错误,或假阴性,假阴性率即漏诊率用 β 表示。确定合适的百分范围应根据研究目的,结合正常人和病人的数值分布,同时考虑 α 及 β,一般有下列两种情况:

(1)正常人和病人的数据分布无重叠(见图 5.4a)。这时只考虑减少 α;

(2)正常人和病人的数据分布有重叠(见图 5.4b)。这时两分布重叠部分内既有病人亦有正常人,若欲减少 α,界值向右移,那么 β 将加大;若欲减少 β,界值向左移,那么 α 将加大。通常兼顾 α 及 β,取两曲线交点的横座标为界值,这时 α 与 β 之和为最小。但实用时还要考虑该正常值范围的主要用途,若用以普查初筛病人,则要减少假阴性,取 80% 或 90% 正常值范围;若用以确诊病人,则要避免假阳性,以取 95% 或 99% 正常值范围为宜。

《医学统计学》

图 5.4 正常人和病人数据分布示意图

6.确定估计方法进行估计。估计正常值范围的方法较多,主要根据频数的分布类型和样本含量选用。常用的有百分位数法和正态分布法。运用百分位数法的条件是样本含量大,适用正态分布法的条件是资料服从正态分布或经过转换后服从正态分布。此外尚有曲线拟合法等。

三、确定正常值范围的方法

1.百分位数法。本法根据正常人样本数据,按照选定的百分范围计算相应的百分位数作为正常值范围的界值。可根据原始数据直接计算,亦可根据频数表进行计算。计算步骤为:

(1)按已确定的百分范围从表 5.1 查得应计算的百分位数;

(2)计算出各百分位数的所在位置;

(3)代入公式计算界限 P x

表 5.1 估计正常值范围的计算项目

百分范围(%)百分位数法正态分布法
双侧单侧下 (或上) 限双侧单侧下 (或上) 限
80P10及 P 90P20(或 P 80)X±1.282SX-(或 +)0.842S
90P5及 P 95P10(或 P 90)X±1.645SX-(或 +)1.282S
95P2.5及 P 97.5P5(或 P 95)X±1.960SX-(或 +)1.645S
98P1及 P 99P2(或 P 98)X±2.326SX-(或 +)2.054S
99P0.5及 P 99.5P1(或 P 99)X±2.576SX-(或 +)2.326S

例 5.2 某地测得 200 例健康成人的血铅值(微克 /100 克)得频数分布如下,试估计单侧 95% 上限。

(1)查表 5.1,百分范围 95,百分位数法,单侧上限应求 P 95

(2)求 P 95的位置 200×0.95=190 即为第 190 个数据处,因此知 A =188,Lx=35,fx=4,ix=5。

代入公式(4.5)

表 5.2 百分位数法计算单侧上限(200 例健康成人的血铅值)

血铅值(微克 /100 克)频数累计频数
0-66
5-4854
10-4397
15-36133
20-28161
25-13174
30-14188
35-4192
40-4196
45-1197
50-2199
55-199
60-1200
合计200

《医学统计学》

《医学统计学》

健康成人血铅值的 95% 正常值上限为 37.5 微克 /100 克。

若根据原始资料计算,已算得 Px 的位置为第 190 个数据后,将原始数据从大至小排,第 10 个数据的值即为 Px。

此法的优点是不拘资料的分布类型,计算简便,样本含量较大,分布较稳定时结果稳定。但估计结果受样本极差的限制,受两侧尾部数据的影响较大,尤其是百分范围较大(如大于 95%)。样本含量不够在时,结果不够稳定。

2.正态分布法。正态分布法运用正态曲线下面积与 μ±μα σ 的关系来估计数值范围的。在图 5.2 中曾提到 μ±1.96σ 的范围内包含了曲线下总面积的 95%,亦就是总例数的 95%。在此范围外则有 2.5% 的例数其数据值大于 μ±1.96σ, 另 2.5% 小于 μ -1.96σ。因此,就可用 μ±1.96σ 来估计双侧 95% 的正常值范围。同理可用 μ 与相应的 μ ασ 估计所需百分范围,μ 可从附表 2 查得。但在实际中 μ 与 σ 常常是不知道的,只能用它们的估计值 X 与 S

来代替。估计正常值范围时常用的百分范围与相应的 X±us 见表 5.1。用正态分布法估

计正常值范围的公式为

X±uαs(5.4)

例 5.3 测得西安市 7 岁男童 102 人坐高,X=66.72,S=2.08,试用正态分布法估计

双侧 95% 正常值范围。

查表 5.1,百分范围 95,正态分布法双侧,应求 X±1.96S。

代入公式(5.4)

66.72±1.96×2.08=(62.6432,70.7968)

西安市 7 岁男童坐高的 95% 正常值范围为 62.6~70.08 公分。

此法适用于正态分布资料,样本均数和标准差比较稳定者,其优点是结果稳定,受两端尾部数据影响较小,也不受样本数据极差的限制,缺点是只适用于正态分布资料。医学上不少资料呈偏态分布,但计算较繁。

练习题

1.

2.调查得成都市 1979 年 996 名女学生月经初潮年龄的分布如下,本资料宜用何法确定其双侧 99% 正常值范围?试估计之。

年岁1011121314151617181920合计
人数7441532442691916116812996

3.某市 20 岁男学生 160 人的脉搏数(次 / 分钟),经正态性检验服从正态分布。求得 X =76.1,S=9.32,试估计脉搏数的 95%、99% 正常值范围。

4.已知 238 例正常人发汞值(μg/g)的最后 14 个发汞值如下,求 95% 单侧上限。

发汞值……2.62.62.62.62.72.72.72.82.83.03.34.04.14.3
秩次……225226227228229230231232233234235236237238

第五章 标准误与可信区间

第一节 抽样误差与标准误

一、抽样误差的意义

在第一章第二节曾提到过样本与总体以及抽样误差的概念,那里谈到,由于存在人与人之间的个体差异,即使从同一总体用同样方法随机抽取例数相同的一些样本,各样本算得的某种指标,如平均数(或率),通常也参差不齐存在一定的差异。样本指标与相应的总体指标之间有或多或少的相差,这一点是不难理解的。如某医生从某地抽了 120 名 12 岁男孩,测量其身高,计算出均数为 143.10cm,若再从该地抽 120 名 12 岁男孩,其平均身高未必仍等于 143.10cm,也不一定恰好等于某市 12 岁男孩身高的总体均数,这种差异,即由于抽样而带来的样本与总体间的误差,统计上叫抽样波动或抽样误差。

抽样误差和系统误差不一样,关系系统误差,当人们一旦发现它之后,是可能找到产生原因而采取一定措施加以纠正的,抽样误差则无法避免。因为客观上既然存在个体差异,那么刚巧这一样本中多抽到几例数值大些的,所求样本均数就会稍大,另一样本多抽到几例数值小些,该样本均数就会稍小,这是不言而喻的。

抽样误差既是样本指标与总体指标之间的误差,那么抽样误差小就表示从样本算得的平均数或率与总体的较接近,有样本代表总体说明其特征的可靠性亦大。但是,通常总体均数或总体率我们并不知道,所以抽样误差的数量大小,不能直观地加以说明,只能通过抽样实验来了解抽样误差的规律性。

二、标准误及其计算

为了表示个体差异的大小,或者说表示某一变量变异程度的大小,可计算标准差等变异指标来说明,现在我们要表示抽样误差的大小,如要问,从同一总体抽取类似的许多样本,各样本均数(或各率)之间的变异程度如何?也可用变异指标来说明。这种指标是:

(一)均数的标准误 为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。下面用抽样实验进一步说明之。

将 100 名正常人的红细胞数(万 /mm3)写在 100 颗大小均匀的豌豆上。这些红细胞数见表 6.1,其均数为 500,标准差为 43。把这些豌豆放在一个口袋里,彻底混匀后取出一颗,记下红细胞数,放回袋内,混匀后再取出一颗,记下数字后再放回去,如此继续下去,这是一个取不完的总体,这样每取 10 个数字作为一个样本,共抽取了一百个样本,并计算每一样本的均数与标准差,例见表 6.2。

表 6.1 红细胞数抽样实验用的正态总体

μ=500 σ=43(单位:万 / 立方厘米)

383410422429430431435442442444
445449450452455456459461462463
465466468469470471472473476477
478479480481482484485486487488
489491492493494495496497498499
500501502503504505506507508509
511512513514515516518519520521
522523524527528529530531532534
535537538539541544545548550551
555556558565569578590599600617

表 6.2 红细胞数抽样实验中的样本举例

样本号红细胞数(万 / 立方毫米),XXS
1383599534442435486478476509544488.661.65
2503506520503489410528488509527498.333.97
3478463617544498485496462482569509.450.96
4529465535473531532556521459383498.452.63
5442493462527520519521512482471494.929.51

第一号样本均数与标准差的计算:

X=4.886/10=488.6

《医学统计学》

将一百个样本均数加总,得到的数值为 50,096.7, 又这一百个样本均数平方之和为 25,114,830.91,于是代入标准差的计算公式,求得一百个样本均数的标准差又称标准误为

《医学统计学》

当总体标准差已知时,可计算理论的标准误 σ χ,公式是

《医学统计学》(6.1)

表 6.1 抽样实验用的总体标准差是 43,每个样本的例数是 10,代入公式得

《医学统计学》

可见由一百个样本均数求得的标准误 13.50 与理论的标准误 13.60 比较接近。

在实际工作中,总体标准差往往并不知道,也不象抽样实验那样从同一总体随机抽取 n 相等的许多样本,而是只有手头一个样本。在此情况下,只能以样本标准差 S 作为总体标准差 σ 的估计值。这样,公式 6.1 中的 σ 就要用 S 代替,σχ改为 S χ,以资区别。

《医学统计学》(6.2)

将第 1 号样本的标准差及例数代入式 6.2,得

《医学统计学》

再若将第 2 号样本的数字代入,Sχ将成为 10.74,余类推。由于不同样本的标准差并不相等,可见 S χ也有抽样波动,这一点是值得注意的,但它仍不失为 σ χ的较好估计值。

以上介绍了求标准误的三种方法,其实我们平常用的只是式 6.2,而通过前两种方法的对比则可使我们明瞭标准误的含义。标准误是描述样本均数变异情况的一个指标,它的大小与总体标准差 σ(一般只能用 S 估计)成正比,而与样本含量 n 的平方根成反比,因此若标准差小或样本含量大时,求出的标准误就小(标准误小表示样本均数与总体均数较接近),X 代表 μ 较可靠,所以假若手头资料中观察值的变异程度较大(S 大)时,为了保

证样本代表总体比较可靠,就得适当增大样本含量(n)。

(二)率的标准误 若总体包括某事件的发生数与未发生数两类,所化成的比例或成数即为总体发生率(符号 π)与未发生率(1-π)。从总体中随机抽取许多样本(n 相等),算出各个样本率(用 P 表示),会是或大或小有波动的。为了表示样本率之间或样本率与总体率之间的差异程度,当总体率 π 已知时,可计算理论的标误 σ p, 其公式是

《医学统计学》(6.3)

实际工作中往往不知道总体率 π 这时只能以样本率 P 作为总体率 π 的估计值,求得率的标准误,并用 S P表示,计算公式为

《医学统计学》(6.4)

现举例说明其求法。

例 6.1 某医生检测了 110 名成年健康人的尿紫质,发现阳性者 11 人,阴性者 99 人,于是算得阳性率 P 及率的标准误 S P如下:

P=11/110×100%=10%(用小数表示为 0.10)

《医学统计学》

若要进一步增强样本率估计总体率的可靠性,可加大样本含量。

三、样本均数的分布

从同一总体里随机抽取 n 相同的许多样本,这些样本均数吴正态分布。如前面所述正常人红细胞数的抽样实验中已求得 100 个样本均数,其中多数与总体均数 μ 比较接近而集中分布在其周围,且左右基本对称,见表 6.3(此表由表 6.4 中的 100 个均数划记归组而得)。

表 6.3 红细胞抽样实验中 100 个样本均数的分布

组 段460-470-480-490-500-510-520-530-540-合计
样本数1318282813711100

表 6.4 一百个样本的均数、标准差、95% 可信区间

样本号均数标准差95% 可信区间样本号均数标准差95% 可信区间
1488.661.65444.49~532.712498.333.97474.01~522.59
3509.450.96472.96~545.844498.452.63460.76~536.04
5494.929.51473.80~516.006°546.743.23515.78~577.62*
7524.533.60500.45~548.55*8488.341.04458.94~517.66
9485.355.14445.85~524.7510502.648.55467.88~537.32
11495.140.63466.03~524.1712524.737.81497.65~551.75
13512.753.18474.65~550.7514494.837.24468.15~521.45
15493.639.94465.03~522.1716495.329.47474.22~516.38
17491.019.32477.18~504.8218506.553.83468.00~545.00
19487.539.39461.32~517.6820495.932.70472.51~519.29
21504.834.76479.94~529.6622512.244.76483.17~547.23
23496.540.65467.41~525.5924499.837.04473.31~526.29
25505.737.21479.08~532.3226487.734.50463.02~512.38
27501.537.35474.79~528.2128476.129.64454.91~497.29*
29523.251.57486.31~560.0930509.533.61485.45~533.55
31494.228.60473.75~514.6532506.225.29483.10~524.30
33501.127.88481.15~521.0534520.630.23498.98~542.22
35492.042.18461.82~522.1836509.619.17495.89~523.31
37488.642.29458.36~518.8438510.947.55476.88~544.92
39516.439.96487.81~544.9940518.846.43485.59~552.01
41495.936.89469.53~522.2742°526.442.78495.80~557.00
43505.853.84467.30~544.3044503.047.33469.14~536.86
45504.847.77470.62~538.9846492.429.20471.52~513.28
47505.538.32478.08~532.9248486.552.98448.59~524.41
49515.238.69487.51~542.8950487.053.75448.55~525.45
51503.351.54466.43~540.1752491.058.47449.18~532.82
53522.365.01475.79~568.8154490.349.92454.58~526.02
55516.737.26490.05~543.3556489.631.41467.14~512.06
57490.062.90445.01~534.9958489.230.91467.09~511.31
59509.140.51480.12~538.0860513.529.18492.62~534.38
61476.442.06446.32~506.4862511.528.46491.14~531.86
63480.744.83448.62~512.7864501.429.00480.66~522.14
65481.150.65444.86~517.3466496.036.53469.87~522.13
67489.244.20457.58~520.8268494.829.73473.54~516.06
69497.268.49448.21~546.1970504.135.13478.95~529.25
71507.934.35483.33~532.4772°465.325.56447.02~483.58*
73502.645.54470.03~535.1774486.448.51451.70~521.10
75°526.632.68503.10~550.10*76503.247.18469.45~536.95
77496.733.45472.77~520.6378504.843.52473.67~535.93
79490.258.07448.67~531.7380486.626.60467.57~505.63
81506.128.48485.72~526.4882513.729.28492.75~534.65
83481.529.78460.19~502.8184491.244.73459.22~523.18
85515.725.78497.26~534.1486513.964.62467.69~560.11
87496.423.82479.37~513.4388507.445.14475.10~539.70
89479.144.15465.52~528.6890498.930.16477.32~520.48
91503.753.90465.16~542.2492495.930.86473.78~518.02
93494.658.48452.78~536.4294507.142.44476.74~537.46
95488.536.15462.65~514.3596489.168.01440.44~537.76
97°530.158.72488.09~572.1198518.745.10486.44~550.96
99507.841.87477.85~537.73100540.655.17465.13~544.07

已知按正态分布,理论上有 95% 的变量值分布在均数加、减 1.96 倍标准差(样本均数的标准差称标准误)的范围内,这里也即 100 个样本均数中有 95 个分布在 500-1.96(13.60)=473.34 至 500+1.96(13.60)=526.66 的范围内。现看表 6.4,在 100 个样本均数中,第 6 号(546.7)、第 72 号(465.3)、第 97 号 (530.1) 在上述范围之外,第 42 号 (526.4) 及第 75 号 (526.6) 就在临界值附近,其余 95 个(若将第 42 及 75 号计算在内则为 97 个)样本均数在此范围之内,将实际分布与理论分布相对照见下表 6.5。100 个样本均数的实际分布与正态分布的理论基本符合。

第二节 t 分布

从数理统计的理论上讲,并且上节的实例也已说明,在总体均数为 μ,总体标准差为 σ 的正态总体中随机抽取 n 相等的许多样本,分别算出样本均数,这些样本均数呈正态分布。而当样本含量 n 不太小时,即使总体不呈正态分布,样本均数的分布也接近正态。在下式中,

《医学统计学》

由于 μ 与(样本均数的标准差)都是常量,又

X 呈正态分布,所以 u

也呈正态分布。但实际上总体标准差往往是不知道的,上式分母中的 σ 要由 S 替代,成为《医学统计学》,那么由于样本标

准差有抽样波动,SX 也有抽样波动,于是,在用 S 代替 σ

后上式等号右边的变量便不呈正态分布而呈 t 分布,其定义公式是

《医学统计学》(6.5)

t 分布也是左右对称,但在总体均数附近的面积较正态分布的少些,两端尾部的面积则比正态分布的多些。t 分布曲线随自由度而不同(如图 6.1)。随着自由度的增大,t 分布逐渐接近正态分布,当自由度为无限大时,t 分布成为正态分布。

《医学统计学》

图 6.1 t 分布(实线)与正态分布(虚线)

与正态分布相似,我们把 t 分布左右两端尾部面积之和 α =0.05(即每侧尾部面积为 0.025)相应的 t 值称为 5% 界,符号为 t 0.05,,,这里 ν 是自由度。把左右两端尾部面积之和 α 为 0.01 相应的 t 值称为 1% 界,符号为 t 0.01,,。t 的 5% 界与 1% 界可查附表 3,t 值表。例如当自由度为 10-1= 9 时,t0.05,9=2.262,t0.01,9=3.250。

第三节 可信区间的估计

一、参数估计的意义

一组调查或实验数据,如果是计量资料可求得平均数,标准差等统计指标,如果是计数资料则求百分率藉以概括说明这群观察数据的特征,故称特征值。由于样本特征值是通过统计求得的,所以又称为统计量以区别于总体特征值。总体特征值一般称为参数(总体量)。我们进行科研所要探索的是总体特征值即总体参数,而我们得到的却是样本统计量,用样本统计量估计或推论总体参数的过程叫参数估计。

本章第一节例 6.1 通过检查 110 个健康成人的尿紫质算得阳性率为 10%,这是样本率,可用它来估计总体率,说明健康成人的尿紫质阳性率水平,这样的估计叫“点估计”。但由于存在抽样误差,不同样本(如再检查 110 人)可能得到不同的估计值。因此我们常用“区间估计”总体率(或总体均数)大概在那一个范围内,这个范围就叫可信区间。区间小的一端叫下限,大的一端叫上限。常用的有 95% 可信区间与 99% 可信区间。根据同一资料所作 95% 可信区间比 99% 可信区间窄些(上、下限较靠近),但估计错误的概率后者为 1%,前者为 5%,进行总体参数的区间估计时可根据研究目的与标准误的大小选用 95%、或 99%。

二、总体均数的估计

为了说明常用的总体均数之区间估计法,我们不妨回顾一下上节所叙的 t 分布。

由求 t 的基本公式

《医学统计学》

我们看到 X 与 μ 的距离等于 t(SX),又根据 X 集中分布在 μ 周围的特点,若取 t 的 5%

界即 t0.05,,(或 1% 界)乘以 SX 作为 X 与 μ 的距离范围,就可用式(6.6)或式 (6.7) 求

出区间来估计总体均数 μ 所在范围,估错的概率仅有 5% 或 1%,因此称 95% 或 99% 可信区间。下面用实例说明其求法。

95% 可信区间 X-t0.05,νSX<μ<x+t0.05,Νsx(6.6)< p=””></x+t0.05,Νsx(6.6)<>

99% 可信区间 X-t0.05,νSX<μ<x+t0.01,Νsx(6.7)< p=””></x+t0.01,Νsx(6.7)<>

例 6.2 上面抽样实验中第 1 号样本的均数为 488.6,标准差为 61.65,例数 10,自由度 ν =10-1=9,试求 95% 与 99% 可信区间。

1.求标准误

《医学统计学》

95% 可信区间 488.6-2.262(19.50)<μ<488.6+2.262(19.50), 即有 95% 的把握估计 μ 是在 444.49~532.71 区间内

99% 可信区间 488.6-3.250(19.50)<μ<488.6+3.250(19.50), 可有 99% 的把握估计 μ 是在 425.22~551.98 区间内

这里两个可信区间都包含 μ =500 在内,所以这次估计是估计对了。

抽样实验共抽了 100 个样本,除 1 号样本外其余 99 个样本均数也对 μ 作了区间估计,这些 95% 可信区间列在表 6.4 中。我们看到,只有 5 个 95% 可信区间(右上角标有星号)不包含总体均数 μ =500 在内,它们是:

样本号X95% 可信区间
6546.7515.78~577.62
7524.5500.45~548.55
28476.1454.91~497.29
72465.3447.02~483.58
75526.6503.10~550.10

平时我们并不重复抽取许多样本来一次次估计总体均数而仅是一次,至于算出的均数会类似一百个样本均数中的那一个就很难说了。如果不遇到类似上列那些均数过大或过小的样本,求出可信区间后总体均数真是在该区间内,那么便是一次成功的估计:但是极少数情况下我们也会遇到极端的样本,以至总体均数并不在我们提出的区间内。不过,我们具体所作的这次估计到底属于前种情况还是后一种,这是无法知道的,因为我们不知道 μ 是多少(若已知 μ 便不必估计它了)。然而象后种情况那样作出错估的概率终究很小,只 5% 或 1%,所以用这样的方法估计总体均数还是可行的。

三、总体率的估计

上面已经提到,计数资料可以计算相对数(率)。我们若由样本统计量 P 估计总体参数 π,同样要考虑率的抽样误差,据数理统计研究结果,样本率的分布也近似正态分布,尤其当 π 比较靠近 50% 且样本较大时。于是对样本,百分率的可信区间可利用正态分布规律估计,公式是:

95% 可信区间 P-1.96Sp<π

99% 可信区间 P-2.58Sp<π

(按正态分布,双侧尾部面积 α =0.05 时的 u 值为 1.96,α=0.01 时的 u 值为 2.58,故用这两式求可信区间时不必查表找临界 u 值,记住这两数即可。)

例 6.3 某医院收治 200 例急性菌痢患者,其中粪便细菌培养阳性者共 80 例,试估计菌痢细菌培养的总体阳性率 95% 与 99% 可信区间。

1. 求阳性率 P=80/200×100%=40%(或 0.40)

《医学统计学》

3.求可信区间

95% 可信区间 40%-1.96(3.46%)<π<40%+1.96(3.46%),即估计 π 在 33.22%~46.78% 之间

99% 可信区间 40%-2.58(3.46%)<π<40%+2.58(3.46%),即估计 π 在 31.07%~48.93% 之间

如果是小样本的百分率,求可信区间可通过查表获得,附表 4 是 n 为 10、15、20、30 时查 95% 与 99% 可信区间的一个简表。此外,统计学专著中还有更详细的表可查。

练习题

1.下列数据为某院两种疾病治愈出院者住院天数统计,试计算标准误以比较两者抽样误差的大小。

例数 n 平均数 X 标准差 S
杆菌痢疾8417.6210.61
流行性感冒906.173.49

2.淮南第三药厂新近研制中西药结合的复方制剂安降片,经 268 例高血压病人临床验证。显效率达 50%,试估计总体率所在的 95% 与 99% 可信区间。

3,用巯甲丙脯酸治疗心衰病人 60 名,治疗前心功Ⅲ级者 34 人,治疗后降为 15 人。求治疗前与治疗后心功Ⅲ级者所占百分比,再分别求其 95% 可信区间。

4.测定正常男、女各 25 人的血球压积(%)后,求得两组平均值与标准差为男:47.0±3.0, 女:41.2±2.8, 试求男、女血球压积(%)的 99% 可信区间。

5. 用氯霉素治疗急性菌疾 30 例,治愈 21 例,用磺胺治疗的一组中,20 例治愈 8 例,求各组治愈的 95% 可信区间。

第六章 t 检验与 u 检验

抽样研究包含参数估计与通过假设检验作统计推断这样一些重要内容。前者在第六章最后一节中已经涉及,后者如 X 2检验,我们亦已有过接触。本章将介绍两均数相比时的假设检验。

第一节 t 检验

一、样本均数与总体均数的比较

为了判断观察到的一组计量数据是否与其总体均数接近,两者的相差系同一总体中样本与总体之间的误差,相差不大;还是已超出抽样误差的一般允许范围而存在显着差别?应进行假设检验,下面通过实例介绍 t 检验的方法步骤。

例 7.1 根据大量调查得知,健康成年男子脉搏均数为 72 次 / 分,某医生在某山区随机抽查健康成年男子 25 人,其脉搏均数为 74.2 次 / 分,标准差为 6.5 次 / 分。根据这个资料能否认为某山区健康成年男子的脉搏数与一般健康成年男子的不同?

在医学领域中有一些公认的生理常数如本例提到的健康成人平均脉搏次数 72 次 / 分,一般可看作为总体均数 μ。已知在总体均数 μ 和总体标准差 σ 已知的情况下可以予测样本均数分布情况,现缺总体标准差,则需用样本标准差来估计它,那么样本均数围绕总体均数散布的情况服从 t 分布(尤其当样本含量 n 较小时,)。t 分布的基本公式即 6.5。

《医学统计学》

从式中可知,t 是样本均数与总体均数之差(以标准误为单位),t 的绝对值越大也即 X 距 μ 越远。在 t 分布中距 μ 越远的样本均数分布得越少(所占百分比小,P 值小),后面附表 3 右上角的示意图中展示了这种关系,如欲知各自由度下 t 值与其相应的 P 值可查附表 3。

下面回答本例提出的问题而进行假设检验。按一般步骤:

(1)提出检验假设 H 与备择假设 H 1。本例 H 为某山区成年男子的脉搏均数与一般成年男子的相等,μ=μ=72 次 / 分;H1为两者不相等 μ≠μ,即 μ 大于或小于 μ(这是双侧检验,如果事先已肯定山区人的脉搏不可能低于一般人,只检验它是否高于一般人,则应用单侧检验,H1必为 μ >μ)。

(2)定显著性水准 α,并查出临界 t 值。α 是:若检验假设为真但被错误地拒绝的概率。现令 α =0.05,本例自由度 ν =n-1=25-1=24、查附表 3 得 t 0.05,24=2.064。若从观察资料中求出的∣t∣值小于此数,我们就接受 H;若等于或大于此值则在 α =0.05 水准处拒绝 H 而接受 H 1

(3)求样本均数 X、标准差 S 及标准误 S χ并进而算出检验统计量 t。现已知 X =74.2 次 / 分,S=6.5 次 / 分,只要求出 S χ及 t 值即可。

《医学统计学》

(4)下结论:因∣t∣t0.05,24=2.064,所以检验假设 H 得以接受,从而认为就本资料看,尚不能得出山区健康成年人的脉搏数不同于一般人而具有显著差别的结论。

二、成对资料样本均数的比较

上面介绍了已知总体均数时的显着性检验方法,但有时我们并不知道总体均数,且医学数据资料中更为常见的是成对资料,若一批某病病人治疗前有某项测定记录,治疗后再次测定以观察疗效,这样,观察 n 例就有 n 对数据,这即是成对资料(也可对动物做成病理模型进行治疗实验以收集类似的成对资料);如果有两种处理要比较,将每一份标本分成两份各接受一种处理,这样观察到的一批数据也是成对资料,医学科研中有时无法对同一批对象进行前后或对应观察,而只得将病人(或实验动物)配成对子,尽量使同对中的两者在性别、年龄或其它可能会影响处理效果的各种条件方面极为相似,然后分别给以一种不同的处理后观察反应,这样获得的许多对不可拆散的数据同样是成对资料。由于成对资料可控制个体差异使之较小,故检验效率是较高的。

关于成对资料,每对数据始终相联这是它的特点,我们可以先初步观察每对数据的差别情况,进一步算出平均相差作为样本均数,再与假设的总体均数比较看相差是否显著,下面举实例说明检验过程。

表 7.1 豚鼠注入上腺素前后每分钟灌流滴数

豚鼠号每分钟灌流滴数
用药前用药后增加数 d
1304616
2385012
348524
448524
56058-2
6466418
7265630
85854-4
946548
10485810
114436-8
1246548
总 计96

例 7.2 为了验证肾上腺素有无降低呼吸道阻力的作用,以豚鼠 12 只,进行支气管灌流实验,在注入定量肾上腺素前后,测定每分钟灌流滴数,结果见表 7.1,问用药后灌流速度有无显著增加?

(1)假设用药前后灌流滴数相同,则相差的总体均数 μ 为 0;即 H:μ=μ;H1:μ≠μ。

(2)令显著性水准 α =0.05,由本例 ν =12-1=11 查得临界值 t 0.05,11=2.201

(3)求样本统计量平均相差数 d、差数的标准差 S d、标准误 Sd 及检验统计量 t 值。

《医学统计学》

(4)下结论。今∣t∣t0.05,11,p <0.05,故认为检验假设 μ = μ 难以接受,在 α =0.05 水准外拒绝 H O而接受 H 1,相差显著,注入肾上腺素后每分钟灌流滴数比注射前要多。

例 7.3 从以往资料发现,慢性支气管炎病人血中胆碱酯酶活性常常偏高。某校药理教研室将同性别同年龄的病人与健康人配成 8 对,测量该值加以比较,资料如下。问可否通过这一资料得出较为明确的结论?

表 7.2 慢性气管炎病人与健康人血液胆碱酯酶活性测定(μM/ml)

对子序号病人组,X1健康人组,X2差数 D =X1-X2
13.282.360.92
22.602.400.20
33.322.400.92
42.722.520.20
52.383.04-0.66
63.642.641.00
72.982.560.42
84.402.402.00

(1)检验假设 H:μ=μ;H1:μ>μ

(2)令 α =0.05,得 t 0.05,7=1.895(单侧)

(3)用差数求统计量

《医学统计学》

(4)结论∣t∣=2.264>t0.05,7=1.895,P<0.05, 在 α =0.05 水准处拒绝 H,接受备择假设,认为慢性气管炎病人血中胆碱酯酶高于正常人。

上例用了单侧检验是因为事先并不认为该类病人血中胆碱酯含量会出现低于健康人的情况。

三、两组资料样本均数的比较

在日常工作中,我们经常要比较某两组计量资料的均数间有无显着差别,如研究不同疗法的降压效果或两种不同制剂对杀灭鼠体内钩虫的效果(条数)等。这时假若事先难以找到年龄、性别等条件完全一样的人(或动物)作配对比较,那么不能求每对的差数只能先算出各组的均数,然后进行比较。两组例数可以相等也可稍有出入。检验的方法同样是先假定两组相应的总体均数相等,看两组均数实际相差与此假设是否靠近,近则把相差看成抽样误差表现,远到一定界限则认为由抽样误差造成这样大的相差的可能性实在太小,拒绝假设而接受 H 1, 作出两总体不相等的结论。

例 7.4 为观察中成药青黛明矾片对急性黄疸肝炎的退黄效果,以单用输液保肝的病人作为对照进行了观察,两组患者均为成人,黄疸指数在 30-50 之间,各人退黄天数如下,试比较用药组(1 组)与对照组(2 组)退黄天数有无显著差别。

表 7.3 急性黄疸性肝炎病人的退黄天数

中药组,X1510142117∑X1=67
对照组,X2182130232222∑X2=136

(1)检验假设 设该药对缩短退黄天数无效,两组的总体均数相等,即 H =μ12;H1:μ1≠μ2

(2)求自由度 ν

ν=n1+n2-2

=5+6-2=9 (7.1)

定 α =0.05,ν= 9 时的 t 值为 t 0.05,9=2.262

(3)计算各组均数,合并方差 S 2c及两均数相差的标准误 S χ1-χ2,然后求 t 值。

《医学统计学》

合并方差:《医学统计学》(7.2)

代入得《医学统计学》

两均数相差的标准误:

《医学统计学》(7.3)

代入得

《医学统计学》

求 t:

《医学统计学》(7.4)

(4)下结论 因│t┃>t0.05,9,P<0.02,所以我们在 α =0.05 水准处拒绝 H 而接受 H 1,两者平均退黄天数和有显著差别,服青黛明矾片药的病人退黄天数较短。如果检验假设属实,这样的结论也还可能下错,但概率在 2% 以下。

上例为两组资料均数间的比较,与前面成对资料的 t 检验有些区别。前者每对中两数据不能分离,后者任一组中的各数据可以在组内前后互换位置;前者只有一个样本平均差数 d 对应于一个假设的总体平均差数 μ,后者,认为 X 1为第一个总体的随机样本均数,X2则来自 μ 2,所以后者要计算两组合并的方差 S 2c(方差是标准差的平方)。再者,与前者相比标准误、自由度的计算方法也不相同。

例 7.5 某人测定半岁至 1 岁小儿、7 至 8 岁儿童各 9 人的免疫球蛋白 IgG(国际单位 /ml),算得平均数与标准差前者(第 1 组)为 55.1± 11.5, 后者(第 2 组)为 95.5 ±17.8,试检验这两种不同年龄的人免疫球蛋白 IgG 有无显著差别。

(1)检验假设 H:μ12;H1:μ1≠μ2

(2)令 α =0.01, 查自由度 ν =9+9-2=16 时的临界值,得 t 0.01,16=2.921

(3)求统计量 已知 X 1=55.1,X2=95.5, 至于求 t 值时作为分母的标准误,在暂缺原始数据时由已知的两个标准差先推算出合并方差 S c2进而求出 S χ1χ2即可,方法如下;

①一般方法;根据标准差算式

《医学统计学》

《医学统计学》

于是

《医学统计学》

《医学统计学》

由式(7.2)

《医学统计学》

由式(7.3)

《医学统计学》

②在两组例数相等时也可直接用 S 1、S2代入下式求 S χ1χ2,结果一样。

《医学统计学》

现已有了均数及标准误可由 X 1、X2、Sχ1χ2求出 t 值。

《医学统计学》

(4)结论 │t│>=5.719>t0.01,16=2.921,P<0.001,在 α =0.01 水准处拒绝 H,接受 H 1,两年龄组的人免疫球蛋白 IgG 的均数相差显著,7- 8 岁组的高于小几组。

关于检验水准 α 定在 0.05 还是 0.01 或其它处,要看检验者事先对结论的可靠性要求之高低而定。本例定 α =0.01,要求是较高的,最后查出 P 值小于 0.001 就更说明 X 1-X2=-40.4 随机来自 μ 12= 0 的假设总体的可能性是很小的。

第二节 u 检验

u 检验(亦称 T 检验),它根据正态分布规律作假设检验(显着性检验)。当样本含量增大时,样本均数的分布趋向正态,这可看图 6.1,t 分布曲线以 ν = 9 的一条比 ν = 3 的更近似正态分布,再看附表 3,表最下一行 ν 为∞时的 t 分布即是正态分布。故 u 检验用于大样本。

在仅有一条的标准正态曲线上,以 u =1.96 与 -1.96 为界,从此处向外的尾部面积共占 5%,即∣u∣≥1.96 相应的 P 值为 0.05,又∣u∣≥2.58 相应的 P 为 0.01。通常我们取 α =0.05 或 α =0.011 作为显着性检验水准,故临界值 u 0.05=1.963 及 u 0.01=2.58 最好能记住而省得查表。

一、两均数的比较

例 7.6 某工业区卫生防疫站为掌握学龄儿童免疫球蛋白水平,对一批无结核及肾炎病史,一月内无急性感染,又未进行预防接种的学生作了血清 IgM(mg/dl)测定,其中 12 岁男孩 73 人的 X±S 为 125±54,12 岁女孩 68 人的为 153±75,试比较 12 岁男、女孩的 IgM 水平有无显着差别。

这里令男生为第 1 组,女生为第 2 组。

(1)检验假设 H:μ12;H1:μ1≠μ2

(2)定 α =0.05 则对应于 P 为 0.05 时的 u 0.05值为 1.96。

(3)求两均数的相差数 X 1-X2、两均数相差的标准误 S χ1χ2及 u 值。此外,计算 S χ1χ2的公式为

《医学统计学》(7.5)

将有关数字代入得

X1-X2=125-153=-28

《医学统计学》

然后求 u

《医学统计学》

(4)结论 因│u┃>u0.05=1.96,P<0.05。在 α =0.05 水准处拒绝 H 而接受 H 1,即 μ 1≠μ2,故认为 12 岁女孩的血清免疫球蛋白 IgM 高于同龄男孩。

二、两个率的比较

关于计数资料,求出特征数百分率后,率与率的比较一般采用第三章介绍的 X 2检验法,在大样本时,根据样本率分布呈正态分布的特点,也可用 u 检验。

例 7.7 某地曾流行一种原因不明的皮炎,有关部门进行调查时,以宅旁有桑毛虫寄生树的人群为观察组(第 1 组),以宅旁无该树者为对照组(第 2 组),两组患病率如下,经显着性检验可得什么结论?

表 7.4 两组皮炎患病率

组 别观察例数患者患病率(%)
观察组14410572.92
对照组1396647.48
合 计28317160.42

(1)检验假设 HO:两组相应的总体率相等即 π 12,H1:π1≠π2

(2)显著性水准 为使结论更加可靠,定 α =0.01,则 1% 界 u 0.01=2.58。

(3)求两样百分率的相差、两百分率相差的标准误 Sp1—p2 及 u 值。

《医学统计学》

式内 π 为两组合计百分率,此例为 0.6042,见表 7.4 合计栏。

《医学统计学》(7.6)

将有关数字代入得

《医学统计学》

(4)结论 │u│=4.379>u0.01=2.58,P<0.01,也即在 α =0.01 水准处拒绝 H,接受 H 1,即 μ 1≠μ2,宅旁有桑毛虫寄生树的人群皮炎患病率较高。

此外,两百率相差的标准误 Sp1-p2还有近似计算公式如下;

《医学统计学》(7.7)

式中 S 2P1、S5P2分别为第 1、2 两组百分比的标准误的平方,标准误计算公式即式(6.4)

《医学统计学》

用上例数据代入可算得

《医学统计学》

这里,标准误与 u 值尽管和前面算得的稍有出入,但还是│u│>u0.01=2.58,P<0.01,结论相同。

第三节 正态性检验与两方差的齐性检验

检验两个样本均数相差的显着性时,我们先有假定:第一个样本系从均数为 μ 1、方差为 σ 12的正态总体中随机取出,第二个样本取自另一个类似的总体,相应的总体参数为 μ 2与 σ 22,两个总体的方差应相等即 σ 1222,然后才可用上述方法进行显着性检验,如果资料呈显着偏态,或两组方差相差悬殊,就要考虑用第十章非参数统计方法处理,或者通过变量代换,使上述条件得到满足。那么,怎样知道手头的样本资料是否服从正态分布及两组方差是否相差显著呢?要对手头资料作正态检验及方差齐性检验。下面分别用实例介绍常用的正态性检验和两方差齐性检验的方法。

一、正态性检验

有些统计方法只适用于正态分布或近似正态分布资料,如用均数和标准差描述资料的集中或离散情况,用正态分布法确定正常值范围及用 t 检验两均数间相差是否显着等,因此在用这些方法前,需考虑进行正态性检验。

正态分布的特征是对称和正态峰。分布对称时众数和均数密合,若均数 - 众数 >0,称正偏态。因为有少数变量值很大,使曲线右侧尾部拖得很长,故又称右偏态;若均数 - 众数 <0 称负偏态。因为有少数变量值很小,使曲线左侧尾部拖得很长,故又称左偏态,见图 7.1(a)。

正态曲线的峰度叫正态峰,见图 7.1(b)中的虚线,离均数近的或很远的变量值都较正态峰的多的称尖峭峰,离均数近或很远变量值都较正态峰的少的称平阔峰。

《医学统计学》

图 7.1 频数分布的偏度和峰度

正态性检验的方法有两类。一类对偏度、峰度只用一个指标综合检验,另一类是对两者各用一个指标检验,前者有 W 法、D 法、正态概率纸法等,后者有动差法亦称矩法。现仅将 W 法与动差法分述于下;

1.W 法 此法宜用于小样本资料的正态性检验,尤其是 n≤50 时,检验步骤如下;

(1)将 n 个变量值 X i从小至大排队编秩。

X1<x2<……<xn<p< p=””></xn<p<></x

见表 7.5 第(1)栏,表中第(2)、第(3)栏是变量值,第(2)栏由上而下从小至大排列,第(3)栏由下而上从小至大排列。第(4)栏是第(3)栏与第(2)栏之差。

(2)由附表 5 按 n 查出 a in系数列入表 7.5 第(5)栏,由于当 n 为奇数时,对应于中位数秩次的 a in为 0,所以中位数只列出,不参加计算。第(6)栏是第(5)栏与第(4)栏的乘积。

(3)按式(7.8)计算 W 值

《医学统计学》(7.8)

式中分子的∑,当 n 是偶数时,为《医学统计学》的缩写,当 n 是奇数时为《医学统计学》的缩写,表 7.5

第(6)栏的合计平方后即为分子。分母按原始资料计算。

(4)查附表 6 得 P 值,作出推断结论,按 n 查得 W(n,α),α 是检验前指定的检验水准,若 W >W(n,α)则在 α 水准上按受 H,资料来自正态分布总体,或服从正态分布;若 W≤W(n,α),则在 α 水准上拒绝 H,接受 H 1,资料非正态。

例 7.8 测得 20 例 40—49 岁健康人右侧腓总神经的传导速度(m/sec)如表 7.5 第(2)、第(3)栏,试检验此资料是否服从正态分布。

H:总体服从正态分布

H1:总体为非正态分布

α=0.05

计算表 7.5 各栏。

表 7.5 W 法正态性检验计算表

秩号传导速度(m/sec)
i(1)Xi(2)Xa-i+1(3)Xa-i+1-Xi(4)=(3)-(2)ain(5)ain(Xa-i+1-Xi)(6)=(5)(4)
140.756.716.00.47347.5744
240.956.015.10.32114.8486
346.055.09.00.25652.3085
447.654.97.30.20851.5221
547.753.55.80.16860.9779
648.352.94.60.13340.6136
749.151.82.70.10130.2735
850.050.90.90.07110.0640
950.150.90.80.04220.0338
1050.250.80.60.01400.0084
18.2240∑ain(Xa-i+1-Xi)

∑Xi=1004 ∑Xi2=50756.16 ∑(X-x)2=355.36

代入式(7.8)

W=(18.2240)2/355.36=0.9347

查附表 6,n=20,α=0.05,W(20,0.05)=0.905

W>W(20,0.05)P>0.1,在 α =0.05 水准上接受 H,该资料服从正态分布。

2.动差法 又称矩法。既能用于小样本资料,亦可用于大样本资料的正态性检验。本法运用数学上三级动差和四组动差分别组成偏度系数与峰度系数,然后检验资料中否服从正态分布。当频数分布为正态时,偏度系数与峰度系数分别等于 0,但从正态分布总体中抽出的随机样本,由于存在抽样误差,其样本偏度系数 g 1与样本峰度系数 g 2不一定为 0,为此,需检验 g 1、g2与 0 的相差是否有显著性。其检验假设为①偏度系数等于 O,即频数分布对称;②峰度系数等于 0,即为正态峰。

偏度系数 g 1、峰度系数 g 2的公式见式(7.9)与(7.11)。当用频数表资料计算时可用式(7.10)与式(7.12),式中 n 为例数,f 为频数。

《医学统计学》

《医学统计学》(7.10)

《医学统计学》(7.11)

《医学统计学》(7.12)

g1、g2的抽样误差分别为 S g1与 S g2,见式(7.13)与式(7.14)

《医学统计学》(7.13)

《医学统计学》(7.14)

假设检验用 u 检验,其公式为

u1=g1/Sg1(7.15)

u2=g2/Sg2(7.16)

u 的显著性界限为

∣u∣<1.96P>0.05 在 α =0.05 的水准上接受 H。

1.96≤∣u∣<2.580.05≥P>0.01 在 α =0.05 的水准上拒绝 H。

∣u∣≥2.58P≤0.01 在 α =0.01 的水准上拒绝 H。

例 7.9 用动差法检验例 7.8 的资料是否服从正态分布。

1.H:频数分布对称,H1:频数分布不对称。

2.H:频数分布为正态峰,H1:频数分布不是正态峰。

α=0.05

∑(X-x)2=355.36,∑(X-x)3=-1032.45

∑(X-x)4=20150.4316 n=20

《医学统计学》

《医学统计学》

u2=0.6221/0.9924=0.627 P>0.20

在 α =0.05 的水准上接受 H,频数分布对称(P>0.05),并为正态峰(P>0.20)。因此可认为该资料服从正态分布。

二、两方差的齐性检验

方差齐性检验的方法是以两方差中较大的方差为分子,较小的方差为分母求一比值(称为 F 值),然后将求得的 F 值与临界值比较,看相差是否显着,现举一例说明。

例 7.10 某单位测定了蓄电池厂工人 32 号,得尿氨基乙酰丙酸(mg/l)的平均含量为 7.06,方差为 42.3072,又测定了化工厂工人 6 名,得平均含量为 3.48,方差为 0.9047,试比较两方差的相差是否有显着意义?

检验假设 H:σ1222,H1:σ12≠σ22α=0.05

定方差较大的一组为第 1 组,较小者为第 2 组,求出 F 值,公式为

F=S12/S22,S1>S2(公式 7.17)

本例 F =42.3072/0.9047=46.76

现将 F 值与附表 7 中的 F .05(ν1,ν2)比较。该表上端数值是较大均方(即方差)的自由度,用 v1 表示,左侧的数值是较小均方的自由度,用 ν 2表示。本例 ν 1=n1-1=32-1=31(表内 ν 1纵行没有 31,可查邻近的数值 30),ν2=n2-1=6-1=5, 查得 F .05(30,5)=6.23, 本例 F =46.76>F.05(30,5),P<0.05, 故在 α =0.05 水准处拒绝 H,接受 H 1。两方差的差别显著。

练习题

1.用某药治疗 10 名高血压病人,对每一病人治疗前、后的舒张压(mmHg)进行了测量,结果如下,问该药有无降压作用?

10 名高血压病人治疗前后的舒张压(mmHg)

病例编号12345678810
治疗前117127141107110114115138127122
治疗后12310812010710098102152104107

2.某医院病理科研究人体两肾的重量,下面是 20 例男性尸解时左、右两肾的称重记录,问左、右两肾重量有无显著差别?

左肾(克)170155140115235125130145105145155110140
14512013010595100105
右肾(克)150145105100222115120105125135150125150
1409012010010090125

3.设有 13 例健康人,11 例克山病人的血磷测定值(mg%)如下表所示,问克山病人的血磷是否高于健康者?

健康者1.671.981.982.332.342.503.603.734.144.174.574.825.78
患 者2.603.243.733.734.324.735.185.585.786.406.53

4.某生化实验室测定了几组人的血清甘油三酯含量(mg%)见下表,试分别比较工人与干部,男与女的该项血酯水平。

正常成人按不同职业、性别分类的血清甘油三酯含量

人 数平均数标准差
工 人112106.4929.09
干 部10695.9326.63
116103.9127.96
10297.9328.71

5 . 肺结核及结核性胸膜炎各 5 例的血沉(一小时)值如下表,问两者的差别显著否?

肺 结 核122030815
结核性胸膜炎8050303070

(请注意,两组病人的个体差异差别大否即方差齐否?试用一般的 t 检验与将各原始数据化成常用对数(定值部可取三位小数)后作 t 检验。将结果比较一下,是否一致?此资料应采取哪一种方法处理为妥?

6.经大量调查认为,正常人末梢血中性粒细胞碱性磷酸酶活性阳性率平均为 41%,某人报告,观察 42 例健康人的阳性率为 54.8%,问这一结果是否较通常的高?

7.某人用灭虫宁治疗蛔虫症 126 例,完全净除率为 15.87%(20 例),治疗钩虫症 225 例,完全净除率 19.56%(44 例),问两者效果有差别否?

8.试分别检验第 3 题健康人与克山病人的血磷值是否服从正态分布。

第七章 方差分析

第一节 方差分析的意义

在第七章我们已介绍了两个样本均数相比较的显着性检验方法。如果相互比较的组超过两个,为同时解决几个均数的比较问题,通常使用方差分析法。

方差即标准差 σ 或 S 的平方,又称均方,它由离均差平方和被自由度相除而得。方差分析时我们将总离均差平方和即总变异分析为几个组成部分,其自由度也分解为相应的几部分,故方差分析又称变异数分析。它是处理实验研究资料时重要的分析方法之一,内容很多,本章仅介绍两个以上样本均数差别的显着性检验。

检验前对资料应有如下要求:被比较的各组应分别随机来自各自的正态总体,各总体相互独立并具有相同的方差即 σ 122232……σk2。检验假设为,H:μ123……=μk,H1:各总体均数不全相等。下面通过实例先介绍完全随机设计资料的方差分析。

第二节 安全随机设计资料的方差分析

一、检验的一般步骤

1.资料 这里所要的是类似第七章第一节三、中所述的成组资料,不过现在不是两组而是多组,如下例。

例 8.1 分泌型免疫球蛋白 A(SIgA)是胃肠道分泌液、泪液等外分泌液中的主要免疫球蛋白类,某院研制了“125I-SIgA 放射免疫测定药盒”,为人体 SIgA 的检验提供了一种简便方法。为比较不同批号药盒检验结果是否一致,该院曾将三批号各四个药盒一一测定了某一标本得结果如下,试作方差分析。

表 8.1 三个批号药盒的 SIgA 放射免疫测定值

批号SIgA 含量(μg/ml), X∑XnX∑X2∑X2-(∑X)2/n
11.921.802.082.007.8041.9515.25280.0428
22.212.252.122.579.1542.2921.04590.1153
33.272.752.903.1012.0243.0136.27540.1553
合计28.97122.41472.57410.3134

2. 分析 从表 8.1 的测定结果可以看出这里有三种变异:

(1)从同一批号药盒的四次测定结果看,不尽相同,这是组内变异。显然它不是由于批号不同的影响,而只是由于误差(如批内各药盒的差异性和测量误差等)造成的。

(2)从各批测定值的均数来看,是不相同的,这是组间变异,表明各批药盒性能质量也许对测得的结果有一定影响,也包括误差的作用。

(3)12 次测定的 SIgA 含量都不尽相同,有高有低,它们既可能受药盒来自不同批号的影响,也包括组内变异,因此称为总变异。

那么这里各批药盒测 SIgA 均值间的差别,只不过是抽样误差的反映呢?还是药盒制作质量不稳定,批间存在显著差别?为了得出正确的结论,可进行方差分析。方差分析的基本甲思想是:①从总变异中分出组间变异和组内变异,并用数量表示变异的程度;②将组间变异和组内变异进行比较,如两者相差不大,说明受批号不同的影响不大;如果两者相差较大,组间变异比组内变异大得多,说明批号不同的影响不容忽视。下面我们根据表 8.1 资料来计算这三种变异。

(1)总离均差平方和:即 12 个观察值各与总均数相差的平方之和,公式为

《医学统计学》(8.1)

式中 SS 总即总离均差平方和,Xij 表示第 i 组的第 j 个观察值,X 为全部观察值的平均数,k 是组数。

本例 SS=72.5741-28.972/12=2.6357

(2)组间离均差平方和:即取各组均数代替该组各观察值后,它们分别与总均数相差的平方之和,公式为

《医学统计学》(8.2)

(3)组内离均差平方和:只要加总各组本身的离均差平方和即得,公式为

《医学统计学》(8.3)

由本例计算结果可以看出,SS组间 +SS 组内 =SS,如 2.3223+0.3134=2.6357。因此,算出 SS 以后再计算 SS组间 、SS 组内 两者中之一个,其余一个便可通过减法求得。

将以上求得的几种变异各除以自由度后得均方。自由度的计算公式分别为

总变异 N-1(N 为各组例数之和)(8.4)

组间变异 K-1(8.5)

组内变异 N-K(8.6)

组间均方与组内均方之比为 F 值,

F=组间均方 / 组内均方(8.7)

本例

《医学统计学》

将以上数据列入下面的方差分析表可使人一目了然。

表 8.2 方差分析表

变异来源离均差平方和自由度均 方F
总 变 异2.635711
组间变异2.322321.161233.368
组内变异0.313490.0348

如果求得的 F 值小于 1 或略大于 1,也即组间变异与组内变异差不多,则关于不同批药盒所致影响就不值得注意,反之,若各批均数间差别甚大,组间变异比组内变异大得多,说明不能只把它看成为误差的表面,很可能不同批药盒的测定值具有差别。现 F 值远大于 1,若等于或大于某 α 水准下的临界 F 值,便将拒绝检验假设 H 而接受备择假设 H 1

本例定 α =0.05, 查附表 8F 值表,F0.05(2,9)=4.26。括弧内 2 为求 F 值时分子(也即较大均方)的自由度,9 为分母的自由度,今 F =33.368,远大于此临界值 4.26, 故 P <0.05,说明不同批药盒的影响不容忽视,各批药盒测定的 SIgA 值相差显著。

二、多个均数间的两两比较

经方差分析(即 F 检验),若各组均数之间差别不显着,则到此为止,不必作进一步统计学处理了。当 F 检验结果为相差显着时,这只是对各组均数的整体而言,至于哪些均数间的差别显着,哪些不显着,还要作如下进一步分析。

本例检验结果为相差显着,这里我们先用较为简单而实用的最小显着差数法来比较三组中每两组均数间的差别是否显着,然后介绍 q 值法。

1.最小显着差数法

(1)计算最小显着性差数 D α,ν

Dα,ν=t,《医学统计学》(8.8)

式中 t,由附表 3 查得,查时自由度 ν 用方差分析表中组内变异的自由度,本例为 9;α 即显著性水准,常用 0.05 或 0.01,本例查得两个临界 t 值即 t 0.05,9=2.262,t0.01,9=3.250。标准误《医学统计学》的计算公式是

《医学统计学》(8.9)

S2组内 也即表 8.2 中的组内均方(也可叫误差均方)0.0348。nA、nB为所比较的两组的例数,本例各组例数都为 4。现将数据代入式(8.9)、(8.8)求得

《医学统计学》

(2)用上述的最小显著性差数与每两组均数的相差数比,若后者大于前者(临界值),便相差显著,若小于前者,为相差不显著。现将两均数间的比较结果列于下表。

表 8.3 均数间两两比较

A 与 B(批号)∣XA-XB界 值 P 值
D0.05D0.01
1 与 2 0.340.2980.429<0.05
1 与 3 1.060.2980.429<0.01
2 与 3 0.720.2980.429<0.01

注:表中 X A-XB两侧的直杠是绝对值符号。

3.统计结论:各批间均在 α =0.05 水准处相差显著,又第 3 批与第 1、2 两批比,P<0.01,说明各批药盒对 SIgA 的检测效果不一致,批号 3 远高于批号 2 与 1。

上面介绍的多个均数间两两比较的方法虽较简便,精确性有时不足,尤其当比较的均数不是在三个而是更多,或各样本含量不相等时应用也较麻烦。下面介绍查临界 q 值而不查 t 值的另一比较方法。

2.q 值法

(1)将表 8.1 中三个均数自大至小排列得:

第 3 批第 2 批第 1 批
SIgA 平均值,X(μg/ml)3.012.291.95
秩次123
样本含量,n444

(2)用组内均方与平均每组例数 n 求出标准误,然后与由附表 9 中查到的临界 q 值相乘,即可列出比较表加以比较。下面是求平均例数的公式。

《医学统计学》(i=1,2,…,k) (8.10)

此例《医学统计学》

本例各组样本大小相等,均为 4,本无须用上式计算,但若各组大小不等时就得用上式求平均例数。

标准误公式为

《医学统计学》(8.11)

此例《医学统计学》

表 8.4 均数间两两比较

A 与 B
(秩次)
组数 α ∣XA-XBQ0.05(a,ν)Sχ ν 见组内变异一行
P 值
3 与 2 20.340.299<0.05
3 与 1 31.060.369<0.05
2 与 1 20.720.299<0.05

现将上表栏目自左至右一一说明如下:

表内左侧,均数大小秩次 3 与 2 比,即相邻两组相比,故组数 a 等于 2。同样,第三行的 2 与 1 比,因 2 与 1 相邻,a 也是 2,3 与 1 比则由 3 到 1 组数有 3,a 等于 3。关于查附表 9 中的 q 值,一方面根据该表上端横行 a 的数字,另方面根据表左侧直行的 ν,也即方差分析表中组内(或误差)项的自由度(本例为 9)来查。表内 q 值有上、下两行数,若定 α 为 0.05,查上行,α 为 0.01 则查下行。

就本例言,用两种方法作均数间两两比较,其结论完全一致。

例 8.2 下表为用动物研究白血病时测得的鼠脾 DNA(脱氧核糖核酸)含量,现作方差分析,比较四个不同病情组的均数相差是否显著。

表 8.5 鼠脾 DNA 含量测定值(mg)

正常组患自发性白血病组患移植白血病总 计
甲组乙组
12.310.89.39.5
13.211.610.310.3
13.712.311.110.5
15.212.711.710.5
15.413.511.710.5
15.813.512.010.9
16.914.812.311.0
17.312.411.5
13.6
∑Xijj119.889.2104.484.7398.1
ni879832
Xi14.9812.7411.6010.5912.44
∑X2ijj1815.961147.321223.58899.155086.01
SSi21.9610.6612.542.3947.55

1.作检验假设 H:μ1234,H1:各总体均数不都相等。α=0.01。

2.用表 8.5 下部数字计算离均差平方和:简法是先求校正数 C =(∑X)2/N=398.12/32,再求

SS:5086.01-(398.1)2/32=133.40

SS组间:(119.8)2/8+(89.2)2/7+(104.4)2/9+(84.7)2/8-(398.1)2/32=85.85

SS组内:133.40-85.85=47.55

3.列出方差分析表

表 8.6 方差分析表

变异来源自由度离均差平方和均方F
总 计31133.40
组 间385.8528.6216.48
组 内2847.551.70

4.查 F 值表,下结论。看附表 8(3),根据求 F 值时组间均方较大,于是用其自由度 3 及组内均方的自由度 28 查得 F 0.01(3,28)=4.57,今 F =16.84>F0.01(3,28)=4.57,故在 α =0.01 水准处相差显著,P<0.01。四组鼠脾的 DNA 含量不等。(注:F 小于 1 时无须查表)。

5.为详细分析每两组间的相差情况,作两两比较如下。(因各组例数不等又组数较多,故用 Q 值法比较)。

(1)将四组均数按大小排列:

正常组患白发性
白血病组
患移植白血病
甲组乙组
DNA 平均含量(mg)14.9812.7411.6010.59
秩次1234
样本含量,n8798

(2)求平均例数与标准误:由式(8.10)与式(8.11)计算得

《医学统计学》

(3)列表比较:

表 8.7 均数间两两比较

A 与 b
(秩次)
组数 a ∣XA-XB界 值 P 值
q0.05Sχq0.01Sχ
4 与 3 21.011.361.86>0.05
4 与 2 32.151.652.14<0.01
4 与 1 44.391.832.32<0.01
3 与 2 21.141.361.86>0.05
3 与 1 33.381.652.14<0.01
2 与 1 22.241.361.86<0.01

注:本例组内均方的自由度为 28 但 q 值表中左侧无 28,故用邻近的较小自由度 20,此外也可用内插法求出 γ 为 28 的 q 值。

比较结果,除患移植性白血病甲、乙组间;甲组与自发性白血病组间(即按均数大小秩次 3 与 4、3 与 2 间)相差不显著外,余均在 α =0.01 水准处相差显著,说明正常鼠脾 DNA 含量最高,患移植白血病乙组的最低。

第三节 随机单位组设计资料的方差分析

随机单位组设计资料和 t 检验中的成对资料相类似,不同之处是成对资料只二个组,而随机单位组设计有三个或更多的组,因而要比较的均数多于两个,它是比完全随机设计更精细的一种设计方法。这样设计的资料作方差分析的检验效能较高,因为在此种设计的方差分析表中多了一个分析内容──单位组间的变异,致使误差均方有一定程度的缩小。下面用例子说明分析过程。

例 8.3 以缺乏核黄素的饲料喂大白鼠,一周后测尿中氨基氮的三天排出量,并与限食量组和不限食量组对比,结果见表 8.8,试比较三组均数间有无显着差别。

表 8.8 三组白鼠在进食一周后尿中氨基氮的三天排出量(mg)

单位组号核黄素缺乏组限食量组不限食量组小计x
15.983.328.1617.465.820
23.633.395.5712.594.197
32.402.665.2510.313.437
44.683.337.3215.335.110
53.812.736.7613.304.433
67.035.135.1317.295.763
74.713.365.0713.144.380
84.694.294.6213.604.533
93.913.189.2616.355.450
106.518.4511.4626.428.807
118.677.129.9125.708.567
123.402.554.009.953.317
∑X59.4249.5182.51191.44
x4.952(2)4.126(3)6.876(3)5.318
∑X2329.1142242.8543629.10651201.0748

离均差平方和:

总计:1201.0748-(191.44)2/36×183。0394

饲料组间

《医学统计学》

单位组间

《医学统计学》

误差 183.0394-47.7877-102.9479=32.3038

注:以上分母 12 与 3 等为组内动物数。

表 8.9 方差分析表

方差来源自由度离均差平方和均 方FF0.01(v1,v2)
总计35183.0394
饲料组间247.787723.893916.275.72
单位组间11102.94799.35896.373.18
误差2232.30381.4684

表 8.8 是按饲料和单位组两个方面分组的资料,设计这种实验时,先将条件基本相同的实验对象组成单位组,然后将一个单位组内的实验对象随机分配到各处理组(饲料组)中去,每组一个。如本例先挑选同窝、同性别、体重基本相等的大白鼠三头,组成一个单位组,共组成 12 个单位组,然后将每一单位组的三头白鼠随机分配到三个饲料组中去,这样,每个处理组的重复数就是单位组数。表 8.8 与表 8.1 资料不同的地方是,表 8.1 在同一批内的各数值,位置可任意调动,不影响分析的结果,而表 8.8 内,需移动数据时必须把该横行(第 i 个单位组)的所有数值同时移动,才使分析结果不受影响。

表 8.9 中各个离均差平方和的数字来自表 8.8 下方。如果是完全随机设计资料的方差分析,分析表中并无单位组间这一横行的数字, 其自由度与离均差平方和被分别包含在原组内(误差)项中,就本例而言那么组内均方将为(102.9479+32.3038)/(11+22)=4.0985,比现在从分析表中看到的误差均方 1.4684 要大得多,也即求 F 值时分母要大得多。分母大,求出的 F 就小,那么在有的资料里就有可能使求得的 F 值不显著而改变结论,由此可见把“单位组间”均方从“组内”均方中分离出来的必要性。但假如在按两个标志分组的资料里,“单位组间”无显著相差,那么这部分均方不分离出来而仅有“组内”均方也可,而若没有这一部分,表 8.9 就会和表 8.2 的项目一样了。本资料不论“饲料组间”、“单位组间”所求 F 值均大于 F 0.01(1,2),故不同饲料组均数间在 α =0.01 水准处相差显著,各单位组平均数间也在 α =0.01 水准处相差显著。

由于三个饲料组均数间相差显著,我们用最小显著差数法进一步作了均数间的两两比较,见表 8.10,计算最小显著差数时用公式(8.8)、(8.9),得:

《医学统计学》

表 8.10 均数间两两比较

A 与 B
(秩次)
∣XA-XB界 值 P 值
D0.05D0.01
3 与 2 0.8261.0261.395>0.05
3 与 1 2.7501.0261.395<0.01
2 与 1 1.9241.0261,395<0.01

秩次见表 8.8 内 X 一行括号内数字。

结论为不限食量组氨基氮三天排出量最高,至于核黄素缺乏组与限食量组之间,则尚未看出有显著差别。

再看表 8.8 右侧 12 个单位组的均数,经 F 检验已知相差显著,初步看第 10、11 号两个单位组的均数(分别为 8.807 和 8.567)比较高,其余的均在 3 与 6 之间差别不大。若作两两比较将要比较《医学统计学》次(12 中取 2 的组合数),为免去许多麻烦,先取 10 号

与 11 号比,若无显著相差可作为一类,再取 11 号均数与其最接近的第 1 号单位组均数相比,若相差显著,11 号均数就不必再与相差更大些的其它均数比下去了,现将这三者相比如下。

《医学统计学》

第 10 与第 11 号,均数之差为 8.807-8.567=0.240,小于 2.052,P>0.05

第 11 号与第 1 号 均数之差为 8.567-5.820=2.747, 大于 2.052,P<0.05。结果 10 号与 11 号单位组均数间无显著相差,而这两组与其余 10 组均相差显著,因为 1 号与 11 号相差 2.747 已差别显著,其余各组与 10、11 号差得更多,大概不会相差不显著的。可见,第 10、11 号两个单位组的动物尿中氨基氮较高。以上分析虽较简略,一般已可说明问题,因本资料的主要分析目的在于饲料组间的比较而并非单位组间。又假如表 8.9 的方差分析结果,F 小于临界值,说明均数间相差不显著,就不必考虑作均数间两两比较。

第四节 拉丁方设计资料的方差分析

表 8.11 家兔注射某种药物后不同部位所生疱疹大小(cm2

动物编号注射次序各动物
小 计
各动物
平均数
123456
B7.5C6.7A7.9D6.1F7.3E6.941.47.07
E8.5D8.2B8.1C9.9A8.7F8.351.78.62
C7.3F7.3E6.8A7.4B6.0D7.742.57.08
A7.4E7.7C6.4F5.8D7.1B6.440.85.80
F6.4B6.2D8.1E8.5C6.4A7.142.77.12
D5.9A8.2F7.7B7.5E8.5C7.345.17.52
各次小计43.044.345.045.244.043.7265.2
部 位 小 计
ABCDEF
46.741.744.043.146.942.8

例 8.4 下面的表 8.11 是家兔在不同部位注射某种药物后所生疱疹的大小。家兔共有六只,其编号为Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ。注射部位有六处,其代号为 A、B、C、D、E、F,其中 A、B、C 在脊椎附近,D、E、F 在两侧,注射次序用 1、2、3、4、5、6 来表示。该表的读法是,第一次注射时 1 号兔在部位 B 处注射,所生疱疹大小为 7.5 平均厘米;Ⅱ号兔在部位 E 处注射,所生疱疹大小为 8.5 平方厘米;余类推。这里我们看到,这个资料是按家兔编号、注射部位、注射次序三个标志来分组的。这种分组与一般的按三个标志的分组(如性别、年龄、病型)又不一样,而是按特殊的实验设计安排的。这种实验设计叫做拉丁方设计。在表 8.11 里,我们看到三个分组标志各分六组,而且每次注射时(纵行)没有相同的部位,每个动物(横行)也没有重复的部位,所以拉丁方的同一纵行内与同一横行内没有相同的字母,这是拉丁方设计的要求。这种设计既控制了动物的个别差异,也控制了因注射日期(次序)不同而可能产生的差异,因此拉丁方的设计控制得更为严密,常用的拉丁方见附表 10。计算离均差平方和:

总计:(7.52+8.52+7.32+………+7.12+7.32)-(265.2)2/36=30.36

先求校正数 C=(265.2)2/36=1953.64

动 物 间《医学统计学》

注射次序间《医学统计学》

部 位 间《医学统计学》

误 差 30.36-12.83-0.56-3.83=13.14

表 8.12 家兔疱疹资料的方差分析

方差分析自由度离均差平方和均方F
总计3530.36
动物间512.832.5663.91*
注射次序间50.560.112
部位间53.830.7661.17
误差2013.140.657

分析资料时,先求出各次注射、各家兔、各部位的小计,然后计算校正数及各离均差平方和与相应的自由度,列入方差分析表,以自由度除对应的离均差平方和,得均方。计算 F 时分母一律用误差项均方。这里注射次序间的均方小于误差均方,就不需要计算 F 值。查 F 值表,当 ν 1=5,ν2=20 时,F0.05(5,20)=2.71,部位间的 F 值小于 2.71,因此差别不显著,动物间的 F 值大于 F 0.05(5,20),故各家兔所生疱疹大小的六个平均数在 α =0.05 的水准处相差显著,下面将六个平均数进一步作两两比较:

从表 8.11 右侧六个动物的平均值看,Ⅱ号动物平均值为 8.62,最高,其次是Ⅵ号动物的 7.52,这两个均数比较后决定是否再和别的几个比。仍用最小显著差数法,先求出

《医学统计学》

现 8.62-7.52=1.10>D0.05,20=0.98,故Ⅱ号与Ⅵ号动物在 α =0.05 水准处相差显著。Ⅱ号与其它各号动物的差别更大。下面查临界 q 值,比次大均数与最小均数即Ⅵ号的 7.52 与Ⅳ号的 5.80,相差为 1.72,与相应的《医学统计学》比较时,均数的相差数大于临界值,相差显著。其它各号动物均数之间则因差别都很小,可不必比较。总之,六个动物间以Ⅱ号动物的均数最大,Ⅳ号的最小,与其余几个都差别显著,其它两两间无显著相差。

第五节 几个方差的齐性检验

进行上述方差分析时,我们把比较的几个组的资料,看成是从几个相应的总体中随机抽取的独立样本,理论上要求几个总体都呈正态分布,几个总体的方差都是相同的,但总体均数可以不等。因此实际应用时,如果各组资料呈显着偏态,或各组方差相差悬殊,(尤其当各样本的含量甚不相同时)就不能用上述方法进行方差分析,而宜改用非参统计等其他方法比较多个样本均数。关于资料的正态性检验可看七章三节,关于各方差是否一致,现以表 8.5 资料为例将方差齐性检验的 Bartlett 氏法简述如下:

首先,作检验假设:样本来自方差相等的各总体,就本例言即

H:σ12223242

H1:各总体方差不尽相

α=0.05

然后按下列公式求检验统计量。如果检验假设属真,此统计量近似于自由度为 K - 1 的 X 2分布。各样本方差相差越大时求出的 X 2统计量也越大,反之则的反是。

《医学统计学》

上式中 2.3026 是由自然对数换成常用对数计算时用的转换系数,若直接用自然对数 ln,不用 1g,就不必乘此数,C 也是一个系数,用以校正 χ 2值,求 C 的公式是,

《医学统计学》

现不防先求 C 以便计算校正的 χ 2值,表 8.5 中各组的例数为 n 1=8,n2=7,n3=9,n4=8,K 组共计例数 N =32,则

《医学统计学》

在表 8.5 的下部最末一行我们已将各组离均差平方和及其合计列出,只要分别除以各自的自由度即为各组方差及合并方差 S c2, 然后代入式 8.12 便可求得 χ 2

《医学统计学》

此值小于 X 20.05,3=7.81,P>0.05, 我们按 α =0.05 水准接受各总体方差相等的假设,认为方差是齐的。因此,该资料符合要求,可以进行方差分析来比较四组鼠脾 DNA 含量相差是否显著。

练习题

1.用三种抗凝剂(A1、A2、A3)对一血标本作红细胞沉降速度(一小时值)测定,每种各作 5 次,问用三种抗凝剂所作血沉值之间有差别否?

A1:15 11 13 12 14

A2:13 16 14 17 15

A3:13 15 16 14 12

2.下表所列数字为鹿茸草对五例原发性血小板减少症患者(治前血小板低于 10 万 /mm3)治疗一、二疗程及出院时的血小板升高数,另有五名健康成人用同一药物后不同时间的升高数附后。考虑这两个资料应用什么方法分析为宜,两者是否该用同一方法处理。

不同人用鹿茸草后血小板的升高值(万 /mm3

患者号一疗程后二疗程后出院时健康人用药后
二小时五小时一昼夜
16.87.67.611.88.72.3
28.010.010.025.49.83.1
35.812.811.636.12.31.0
45.05.07.041.53.20.4
56.010.022.852.47.20.5

3.为测定黄铜铸造车间的空气中氧化锌浓度,在车间内选 4 个不同地点 A、B、C、D,每点取自地面不同的四个高度,于一日内的四个不同时间采用 4×4 拉丁方设计进行采样,用双硫腙比色法测定其含量,得结果如下。试比较不同地点、不同高度,不同时间车间空气中 ZnO 浓度有无显著不同。

不同地点、时间和高度空气中氧化锌浓度

采样时间(小时)氧化锌浓度
高度 1 高度 2 高度 3 高度 4
9:00C10.5D7.7B12.0A13.2
11:00B11.1A12.0C10.3D7.5
14:00D5.8C12.2A11.2B13.7
17:00A11.6B12.3D5.9C10.2

第八章 直线相关与回归

前面各章介绍的统计方法都只涉及单一变量,即或进行两组或多组比较,所比较的仍然是同一变量,而且是以讨论各组间该变量的相差是否显着为中心环节。但医学领域里常可在一个统一体中遇到两个或多个变量之间存在着相互联系、相互制约的情况,如同一批水样的浊度与透光率,同一批人的年龄与血压以及身长、体重与胸围等。因而研究问题的方法就需要扩展。在统计方法中通常是用相关与回归的方法来研究不同变量之间的这种相互依存和互为消长的关系。相关与回归的种类较多,本章所涉及的只是其中最简单的直线相关与直线回归,简称相关与回归。

相关与回归即有区别又有联系,表达事物或现象间的在数量方面相互关系的密切程度用相关系数;说明一变量依另一变量的消长而变动的规律用回归方程。现先介绍相关,再介绍回归。

第一节 直线相关

一、相关系数的意义

相关分析是用相关系数(r)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。相关系数 r 没有单位。在 -1~+ 1 范围内变动,其绝对值愈接近 1,两个变量间的直线相关愈密切,愈接近 0,相关愈不密切。相关系数若为正,说明一变量随另一变量增减而增减,方向相同;若为负,表示一变量增加、另一变量减少,即方向相反,但它不能表达直线以外(如各种曲线)的关系。

为判断两事物数量间有无相关,可先将两组变量中一对对数值在普通方格纸上作散点图,如图 9.1~9.8 所示。图中点子的分布可出现以下几种情况:

正相关——见图 9.1,各点分布呈椭圆形,Y 随 X 的增加而增加,X 亦随 Y 的增加而增加,此时 1 >r>0。椭圆范围内各点的排列愈接近其长轴,相关愈密切,当所有点子都在长轴上时,r=1(见图 9.2),称为完全正相关。

负相关——见图 9.3,各点分布亦呈椭圆形,Y 随 X 的增加而减少,X 也随 Y 的增加而减少,此时 0 >r>-1。各点排列愈接近其长轴,相关愈密切,当所有点子都在长轴上时,r=1(见图 9.4),称为完全负相关。

在生物现象中,完全正相关或完全负相关甚为少见。

无相关——见图 9.5、图 9.6 和图 9.7,X 不论增加或减少,Y 的大小不受其影响;反之亦然。此时 r =0。另外,须注意有时虽然各点密集于一条直线,但该直线与 X 轴或 Y 轴平行,即 X 与 Y 的消长互不影响,这种情况仍为无相关。

非线性相关——见图 9.8,图中各点的排列不呈直线趋势,却呈某种曲线形状,此时 r≈0,类似这种情况称为非线性相关。

《医学统计学》

图 9.1—9.8 不同相关系数的散点示意图

二、相关系数的计算及假设检验

(一)相关系数计算法

计算相关系数的基本公式为:

《医学统计学》(9.1)

式(9.1)中 r 为相关系数,∑(X-X)2为 X 的离均差平方和,∑(Y-Y)2为 Y 的离均差平方和,∑(X-X)(Y-Y)为 X 与 Y 的离均差乘积之和,简称离均差积之和,此值可正可负。以此式为基础计算相关系数的方法称积差法,在实际应用时式(9.1)中各离均差平方和(简称差方和)与积之和可化为

《医学统计学》

(9.2)

现举例说明计算相关系数的一般步骤:

例 9.1 测定 15 名健康成人血液的一般凝血酶浓度(单位 / 毫升)及血液的凝固时间(秒),测定结果记录于表 9.1 第(2)、(3)栏,问血凝时间与凝血酶浓度间有无相关?

1.绘图,将表 9.1 第(2)、(3)栏各对数据绘成散点图,见图 9.9。

2.求出∑X、∑Y、∑X2、∑Y2、∑XY,见表 9.1 下方。

3,代入公式,求出 r 值。

《医学统计学》

图 9.9 凝血时间与凝血酶浓度散点图及回归直线

表 9.1 相关系数计算表

受试者号
(1)
凝血酶浓度(单位 / 毫升)X(2)凝血时间(秒)Y(3)
11.114
21.213
31.015
40.915
51.213
61.114
70.916
80.915
91.014
100.916
111.115
120.916
131.114
141.015
150.817
合计15.1222

∑X=15.1 ∑Y=222

∑XY=221.7

∑X2=15.41∑Y2=3304《医学统计学》

本例的相关系数 r =-0.9070,负值表示血凝时间随凝血酶浓度的增高而缩短;绝对值∣-0.9070∣表示这一关系的密切程度。至于此相关系数是否显著,则要经过下面的分析。

(二)相关系数的假设检验

虽然样本相关系数 r 可作为总体相关系数 ρ 的估计值,但从相关系数 ρ = 0 的总体中抽出的样本,计算其相关系数 r,因为有抽样误差,故不一定是 0,要判断不等于 0 的 r 值是来自 ρ = 0 的总体还是来自 ρ≠0 的总体,必须进行显著性检验。检验假设是 ρ =0,r 与 0 的差别是否显著要按该样本来自 ρ = 0 的总体概率而定。如果从相关系数 ρ = 0 的总体中取得某 r 值的概率 P >0.05,我们就接受假设,认为此 r 值的很可能是从此总体中取得的。因此判断两变量间无显著关系;如果取得 r 值的概率 P≤0.05 或 P≤0.01,我们就在 α =0.05 或 α =0.01 水准上拒绝检验假设,认为该 r 值不是来自 ρ = 0 的总体,而是来自 ρ≠0 的另一个总体,因此就判断两变量间有显著关系。

由于来自 ρ - 0 的总体的所有样本相关系数呈对称分布,故 r 的显著性可用 t 检验来进行。本例 r =-0.9070,进行 t 检验的步骤为:

1.建立检验假设,H:ρ=0,H1:ρ≠0,α=0.01

2.计算相关系数的 r 的 t 值:

《医学统计学》(9.3)

3.查 t 值表作结论

ν=n-2=15-2=13

根据专业知识知道凝血酶浓度与凝血时间之间不会呈正相关,故宜用单侧界限,查 t 值表得

t0.01,13=2.650

今∣tr∣>t0.01,13,P<0.01,在 α =0.01 水准上拒绝 H,接受 H 1,故可认为凝血时间的长短与血液中酶浓度有负相关。

为简化 t r检验的计算过程,数理统计工作者根据 t 分配表,已把不同自由度时 r 的临界值求出,并列成相关系数界值表(见附表 11)。故求相关系数后,只需查表就可知道该 r 值是否显著,而不必再计算 t r值。

r 的显著性界限为

|r|<r0.05,ν P>0.05 相关不显著 </r

r0.05,,≤|r|<r0.01,,0.05≥P>0.01

在 α =0.05 水准上相关显著

|r|≥r0.01,,P≤0.01 在 α =0.01 水准上相关显著

例 9.1 的 ν =15-2=13,查附表 11 中 P (1)的界值,得:

r0.05,13=0.441r0.01,13=0.592

现 r =-0.9070,∣r∣>r0.01,13,P<0.01, 按 α =0.01 水准,拒绝 H O, 接受 H 1。认为 ρ≠0,说明凝血时间的长短与血液中凝血酶浓度有负相关。结论与计算所得一致。

相关系数的显著性与自由度的大小有关,如 n =3,ν= 1 时,虽 r =-0.9070,却为不显著;若 ν =400 时,即使 r =0.1000,亦为显著。因此不能只看 r 的值,不考虑 ν 就下结论。

第二节 直线回归

一、直线回归方程的意义

计算出相关系数后,如果 r 显着,且又需要进一步了解两变量中一个变量依另一个变量而变动的规律时,则可进行回归分析。

“回归”是个借用已久因而相沿成习的名称。若某一变量(Y)随另一变量(X)的变动而变动,则称 X 为自变量,Y 为应变量。这种关系在数学上被称为 Y 是 X 的函数,但在医学领域里,自变量与应变量的关系和数学上的函数关系有所不同。例如成年人年龄和血压的关系,通过大量调查,看出平均收缩压随年龄的增长而增高,并且呈直线趋,但各点并非恰好都在直线上。为强调这一区别,统计上称这是血压在年龄上的回归。

直线回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。按这个要求计算回归方程的方法称为最小平方法或最小二乘法。所建立的方程是一个二元一次方程式,其标准形式是:

《医学统计学》=a+bX(9.5)

式(9.4)《医学统计学》为由 X 推算得来的 Y 值,即 Y 的估计值:a 称为截距,它是当 X = 0 时的 《医学统计学》 值,即回归直线与纵轴的交点:b 称为回归系数,它是回归直线的斜率,其含意是当 X 每增加一个单位时,《医学统计学》相应增(或减)b 个单位。当 a 与 b 求得后,直线回归方程就确定了。

二、直线回归方程的计算法

仍以表 9.1 资料为例,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。求直线回归方程的步骤如下:

1.列回归计算表(见表 9.1),计算∑X、∑Y、∑X2、∑Y2、∑XY。

2.计算 X、Y、∑(X-X)2、∑(X-X)(Y-Y)

X=∑X/n=15.1/15=1.01

Y=∑Y/n=222/15=14.80

∑(X-X)2=∑X2-(∑X)2/n=0.2093

∑(X-X)(Y-Y)=∑XY-∑X·∑Y/n=-1.7800

3.计算回归系数 b 和截距 a。b 和 a 两值计算公式均是根据最小二乘法的原理推算出来的,其公式如下:

《医学统计学》(9.5)

a=Y-bX(9.6)

本例 b =-1.7800/0.2093=-8.5045

a=14.80-(-8.5045)(1.01)=23.3895

4.列出回归方程,绘制回归直线,将求得的 b 和 a 的值代入到式(9.4),即得所求的回归方程:

《医学统计学》=23.3895-8.504X

在凝血酶浓度的实测范围内,即 X =0.8 到 X =1.2 之间,任选两个 X 值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个《医学统计学》值。例如:

取 X1=0.8,则《医学统计学》1=23.3895-8.5045×0.8=16.59,

X2=1.2 则《医学统计学》2=23.3895-8.5045×1.2=13.18。

连接(0.8、16.59)和(1.2、13.18)两点所得直线,即为由凝血酶浓度推算凝血时间的回归直线(见图 9.9)。须注意回归直线必通过(χ,y)点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。

三、直线回归方程的假设检验

(一)样本回归系数的假设检验

根据例 9.1 资料求得的是样本回归系数 b,有抽样误差的,需作假设检验,检验其是否是从回归系数为 0 的假设总体(即 β =0)中随机抽得的,也就是检验 b 与 0 的差别有无显着性。如果差别有显着性,可认为 X 与 Y 间有直线回归存在。

样本回归系数的假设检验亦用 t 检验。

H:β= 0 即 Y 的变化与 X 无关;

H1:β≠0。

计算公式为:

《医学统计学》(9.7)

分母 S b是样本回归系数 b 的标准误,计算公式为:

《医学统计学》(9.8)

分子 Sy.x 为各观察值 Y 距回归线的标准差,即当 X 的影响被扣去以后 Y 方面的变异,可按下式计算:

《医学统计学》(9.9)

式中∑(Y-《医学统计学》2为估计误差平方和,常用下式计算:

《医学统计学》(9.10)

根据数理统计的理论,同一批资料计算所得 t r与 t b是相同的,即 t r=tb。处理资料时可检验相关显著性代替其回归显著性。

由于例 9.1 资料的 r 在 α =0.01 水准上显著,故可判断样本回归系数 -8.5045 与 0 的相差有显著性,说明存在凝血时间随凝血酶浓度变化而变化的回归关系。

(二)两样本回归系数相差的假设检验

若有两个可以比较的样本,它们的回归系数分别为 b 1与 b 2,经检验都为显著,回归系数的标准误分别为 S b1和 S b2。b1与 b 2相差的显著性也可用 t 检验法检验,其计算公式为:

《医学统计学》(9.11)

ν=n1+n2-4

式(9.11)中 S b1-b2为两样本回归系数之差的标准误,其计算公式为:

《医学统计学》(9.12)

式(9.12)中 S 2C为两样本回归系数的合并方差,其计算公式为:

《医学统计学》(9.13)

式(9.13)中∑(Y-《医学统计学》2为估计误差平方和,即观察值 Y 与估计值 《医学统计学》 的差数(Y-《医学统计学》)的平方之和。其计算公式见公式(9.10),

现以实例说明两样本回归系数 t 检验的步骤。

例 9.2 表 9.2 资料为同一批白蛋白于 38℃与 25℃条件下,不同时间(分)的凝固百分比,问由此而得的两样本回归系数相差是否显著?

表 9.2 白蛋白在两种温度下各不同时间的凝固百分比

时间(分)凝固百分比(%)
X25℃Y138℃Y2
37.212.0
618.430.0
930.044.0
1240.053.0
1549.066.0
1858.081.5
合计 63202.6286.5

本例图示见图 9.10,本例计算见图下:

《医学统计学》

图 9.10 白蛋白在两种温度下各不相同时间的凝固百分比

r1=0.998(P<0.01) b1=3.389∑(Y1《医学统计学》1)2=5.7927n1=6

r2=0.996(P<0.01) b2=4.424∑(Y2《医学统计学》2)2=24.5857n2=6

∑(X1-X1)2=∑(X2-X2)2=157.5000

1.H:β12=0

H1:β12≠0

α=0.01

2.计算 t 值:

《医学统计学》

3.查 t 值表作结论:以 ν =6+6-4= 8 查 t 值表,得

t0.01,8=2.355, 今∣t∣>t0.01,8, 故 P <0.01。

4.判断结果:按 α =0.01 水准,拒绝 H,接受 H 1,故两个回归系数差别显著。说明两条回归直线的斜率不同,两条回归直线中 X 对 Y 的影响规律不一致。现 b 2>b1,说明随着时间的增加,蛋白质在 38℃时凝固百分比的增加量比在 25℃时高。

第三节 计算相关与回归的注意事项

1.作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作相关或回归分析。如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的 r、b 是显着的,也是没有意义的。

2.对相关分析的作用要正确理解。相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显着性“证明”因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。

3.相关与回归的区别和联系:相关表示两变量间的相互关系,是双方向的。而回归则表示 Y 随 X 而变化,这种关系是单方向的。医学资料中的有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。另有些资料用相关和回归都适宜,此时须视研究需要而定。就一般计算程序来说,是先求出相关系数 r 并对其进行假设检验,如果 r 显著并有进行回归分析之必要,再建立回归方程。

回归系数与相关系数的正负号都有两变量离均差积之和的符号业决定,所以同一资料的 b 与其 r 的符号相同。回归系数有单位,形式为(应变量单位 / 自变量单位)相关系数没有单位。相关系数的范围在 -1~+ 1 之间,而回归系数没有这种限制。

4.适合作相关和回归分析的资料通常有两种资料:(1)一个变量 X 是选定的,另一个变 Y 是从正态分布的总体中随机抽取的,宜作回归分析。(2)两变量 X、Y(或 X 1、X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。这时,若需要由一个变量推算另一个变量可作回归分析;若只需说明两变量间的相互关系可作相关分析。如果变量(一个或两个)呈明显偏态时,须经过适当的变量代换(如对数代换等),使资料接受正态分布后再做相关与回归分析;或者采用秩相关法(见第十章第四节)。

5.在回归分析中,由 X 推算 Y 与由 Y 推算 X 的回归方程是不同的,不可混淆。

《医学统计学》

但我们必须正确选定自变量与应变量,一般说,事物的原因作自变量 X,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量 X,以推算应变量 Y。

6.回归方程的适用范围有其限度,一般仅适用于自变量 X 的原数据范围内,而不能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈同样的直线关系。

练习题

1.测量了 10 个家庭中兄弟和姐妹的平均身长,试根据本资料的数据对兄弟与姐妹间身长进行相关分析。

家庭编号12345678910合计
兄弟(厘米)X165666667687070717172686
姐妹(厘米)X259626563646565626966640

2.某研究组测定羊抗人血清 IgG 含量与沉淀圈直径,其测定结果如下。试据本资料的对数值作相关与回归分析。问能否用沉淀圈直径推算 IgG 含量?

羊抗人血清 IgG 含量(μg/μl)与沉淀圈直径(mm)

编号真数对数
羊抗人血清 IgGX沉淀圈直径 Y 羊抗人血清 IgGX=1gX沉淀圈直径 Y =1gY
14.501.560.65320.1931
25.503.120.74040.4942
36.506.250.81290.7959
48.5012.500.92941.0969
511.5025.001.06071.3979
613.5050.001.13031.6990
合计5.32695.6770

3.有人测定了大白鼠正常肝与肝肿瘤中蛋白质的含量与逆甲氨酶的活度,得结果如下。试检验两样本回归系数 b 1与 b 2间有无显著相差。

两组肝中蛋白质含量与递甲氨酶活度

正常肝肝肿瘤
蛋白质含量(mg)X1酶活度(CPM)Y1蛋白质含量(mg)X2酶活度(CPM)Y2
0.39160.94198
0.69271.00310
0.90400.50101
1.20671.70563
1.35610.80376
1.60880.3375
6.132995.271623
n1=6n2=6
b1=59.07b2=353.02
Sb1=6.2664Sb2=78.1412
∑(X1– X1)2=0.9979∑(X2-X2)2=1.1437
∑(Y1《医学统计学》1)2=157.4023∑(Y2《医学统计学》2)2=27931.9032

4.思考题

(1)要分析吸烟与否和肺癌发病率的关系应收集什么资料,用什么统计方法分析?

(2)若 r >r0.05可否得出 t b>t0.05的结论?

(3)若样本回归系数 b <0,可否认为两变量呈负相关?

(4)回归系数愈大,两变量关系是不是愈密切?

(5)∑(Y-《医学统计学》)2说明什么问题?

第十章 非参数统计

第一节 概念

什么叫非参数统计?先从参数统计说起。总体的特征值叫参数,一些特定分布都有其参数,如正态分布由 μ、σ 两个参数所决定。有些统计方法是根据特定分布设计出来的,如估计正常值范围的正态分布法、U 检验等是根据正态分布设计出来的,这样的一些方法统称为参数统计,前边已学过的 t 检验和方差分析都属于参数统计。但在实际工作中,有些资料不易判定或不符合所要求的分布,因此就需要有这样一些统计方法,它不受由参数所决定的特定分布的限制而适用于任意分布,这类统计方法称为非参数统计(non-parametric Statistics)或称不拘分布 distribution-free)的统计。

用非参数统计法处理资料时所比较的是分布而不是参数。它不考虑资料的分布类型,直接用样本数据的符号、大小顺序号、综合判断划分的名次、严重程度、优劣等级等作比较。

非参数统计的优缺点是:

方法简便、易学易用,要求资料所具备的条件不像参数法那样严格,因而易于推广使用。另外,参数法难以处理的等级资料,非参数法却能加以分析,故其应用范围广泛。

但如果已知资料所属总体近似于正态分布,或者资料经代换后可呈某种特定分布,那末,非参数统计法所得信息就不及参数统计法多,当检验假设错误时,非参数统计发现差异的灵敏度也较低。

当资料中例数并不太少时,用非参数统计所得的结论常和用参数统计法相同,但当统计结果在显著性界线附近时,两者结论可能不同,此时,若资料具备参数统计要求的条件,则以参数统计结论较合理,若资料不具备参数统计要求的条件,则非参数统计的结论可能准确些。

在下述情况下非参数统计可作为首选方法:

1.各种资料的初步分析;

2.某种标志不便准确的测量,而只能以严重程度、优劣等级、成效大小、名次先后或综合判断等方式定出次序时;

3.资料的分布类型不能确定时;

4.综合分析同质性较差的资料时,如不同地点,不同年份的某种实验结果等;

5.组内个别数据偏离过大,或各组内变异相差悬殊时。

第二节 符号检验

将资料用正负号表示,然后根据正负号个数计算 χ 2值进行假设检验,称为符号检验。符号检验的检验假设:若为成对资料,则为 H:P(X1>X2)=P(X2>X1),含义是总体内每一对数字(分别用 X 1和 X 2表示)中,X1>X2的概率等于 X 2>X1的概率,都是 1 /2,而备择假设 H 1为 P(X1>X2)≠P(X2>X1)≠1/2;若为不成对资料,检验假设 H 为 F(X1)=F(X2)即两总体的分布函数相等,而 H 1:F(X1)≠F(X2)。符号检验的计算都很简单,但检验效率也较低。

一、成对资料的比较

现以例 10.1 说明其计算步骤如下:

1.划出每对数值的正负号,如令用药后每分钟灌流滴数大于用药前的为“+”,反之为“-”,相等为“0”,则其结果见表 10.1 最右侧栏。

2.清点“+”、“-”、“0”各有几个,分别记为 n +、n、n,得 n +=9,n-=3,n=0

3.代入式(10.1),求得 χ 2

《医学统计学》,v=1(10.1)

4.但 χ 2值表,作出结论。

例 10.1 表 10.1 为豚鼠注入肾上腺素前后的每分钟灌流滴数,试比较给药前后灌流滴数有无显著差别。

表 10.1 豚鼠给药前后的灌流滴数

豚鼠号每分钟灌流滴数X2-X1的正负号
用药前 X 1用药后 X 2
13046+
23850+
34852+
44852+
56058
64664+
72656+
85854_
94654+
104858+
114436
124654+

将 n +=9,n= 3 代入式 (10.1) 得

《医学统计学》

χ20.05,1=3.841, 今 χ 220.05,1, 故 P <0.05,不能拒绝检验假设 H,故这种相差是不显著的,不能得出用药后比用药前灌流滴数增加的结论。

此法简便,但较粗糙,数据少于 6 对时,不能测出显著性,12 对以下应慎用,当达到 20 对以上时,其结果才比较可靠,另外,n较多时,会夸大差别。

二、不成对资料(两组或多组)的比较

现以例 10.2 说明其计算步骤如下:

1.各自排列,统一编秩号。将两组数据分别从小到大排列,然后按两组数据自小至大统一给以顺序号,即为秩号。编秩号时,凡数据相等而分属于两组的,应编平均秩号,如 0.042 共有三个,分属于两组,其秩号应该是 7、8、9,求其平均,皆给以平均秩号 8。

2.求秩号的中位数 M R,公式是:

《医学统计学》(10.2)

3.求各组 n +、n、n:以 M R为准,大于 M R的秩号个数为 n +,小于 M R的秩号个数为 n ,相等者为 n。

4.代入下式求 χ 2

《医学统计学》ν= 组数 -1(10.3)

5.查 χ 2值表,作结论。

例 10.2 表 10.2 为 9 名健康人和 8 名铅作业工人的尿铅值(mg/L)试比较两组间有无显著差别?

表 10.2 9 名健康人与 8 名铅作业工人的尿铅值(mg/L)

健康人秩号铅作业工人秩号
0.00110.0428
0.00220.0428
0.01430.04810
0.02040.05011
0.03250.08214
0.03260.08615
0.04280.09216
0.054120.09817
0.06413

两组各自排队,统一编秩号,其结果见表 10.2

《医学统计学》以此数为准,数得两组秩号的 n +、n、n 如

下:

n+nn
健康人数27
铅作业工人组62

代入公式

《医学统计学》

ν=2-1=1,χ20.05,1=3.841

今 χ 220.05,1故 P >0.05 不能拒绝检验假设,相差不显著,还不能说健康人与铅作业工人尿铅值有显著差别。

当多组资料比较时,其步骤与两组比较的一致,但计算 χ 2值的公式略有不同:

《医学统计学》(10.4)

符号检验未充分利用原始资料中的全部信息,故比较粗,但因其简便,可迅速得到结果故也有其使用价值。

第三节 秩和检验

用秩号代替原始数据后,所得某些秩号之和,称为秩和,用秩和进行假设检验即为秩和检验。其检验假设在两组比较(成对或不成对)时,H:F(X1)=F(X2),即两总体的分布函数相等,备择假设 H 1:F(X1)≠F(X2)。本法由于部份地考虑了数据的大小,故检验效力较符号检验大大提高。至于其方法、步骤,不论是查表法或计算法、也都相当简便,现举例说明如下。

一、成对资料的比较

此法由 Wilcoxon 氏首次提出,故又称 Wilcoxon 氏法。

处理时可用查表法或计算法,今以例 10.3 分别说明如下。

查表法步骤:

1.排队,将差数按绝对值从小至大排列并标明原来的正负号,见表 10.3 第(5)栏,排队后与原豚鼠号已无对应关系。

2.编秩号,成对资料编秩号时较为复杂,要注意三点:

(1)按差数的绝对值自小至大排秩号,但排好后秩号要保持原差数的正负号;

(2)差数绝对值相等时,要以平均秩号表示,如表 10.3 中差数绝对值为 4 者共三人,其秩号依次应为 2、3、4,现皆取平均秩号 3;

(3)差数为 0 时,其秩号要分为正、负各半,若有一个 0,因其绝对值最小,故秩号为 1,分为 0.5 与 -0.5,若有两个 0,则第二个 0 的秩号为 2,分为 1 与 - 1 等等。

3.求秩号之和即将正、负秩号分别相加,本例得正秩号之和为 68,负秩号之和为 10,正负秩号绝对值之和应等于 1 /2n(n+1),可用以核对,如本例 68+10=12/1(12+1)=78,证明秩号计算正确。

4. 以较小一个秩号之和(R),查附表 12 进行判断,该表左侧为对子数,表身内部是较小秩号和,与上端纵标目之概率 0.05,0.01 相对应,其判断标准是

R>R0.05时 P >0.05

R0.05≥R>R0.01时 0.05≥P>0.01

P≤R0.01时 P≤0.01

例 10.3 请以表 10.1 资料用秩和检验处理之。

表 10.3 豚鼠给药前后灌流滴数及其秩号

豚鼠号
(1)
每分钟灌流滴数按差数绝对值排队(5)秩号
用药前(2)用药后(3)差数(4)正(6)负(7)
1304616-21
2385012-43
34852443
44852443
56058-2-86
646641886
726563086
85854-4108
946548129
104858101610
114436-81811
12465483012

68 R=10

将表中 10.1 中用药前后的数据求出差数,并按差数绝对值排队,结果见表 10.3 第(5)栏。再编秩号,为计算方便,正、负秩号分列两栏,见表 10.3 第(6)、(7)栏。

上例,n=12,∣R∣=10,查附表 12 得

R0.05=14R0.01=7

今 R 0.05>R>R0.01,故 0.05>P>0.01,在概率 0.05 水平上拒绝 H,接受 H 1,即用药前后的相差是显著的,给药后每分钟灌流滴数比用药前增多了。

附表 12 中只列有 n≤25 时的临界值。当 n 值较大时亦可采用计算法。

计算法步骤:

在计算法时,对差数的排队,编秩号及求秩号之和同查表法,不同的是求得秩号之和以后的算,所用公式是:

《医学统计学》

u0.05=1.96u0.01=2.58 (10.5)

式中 n 为原始资料中数据的对子数,R 为正秩号之和或负秩号之和,为计算方便,通常取绝对值较小的秩号之和为 r。

本例,n=12,R=-10,代入得:

《医学统计学》

U0.05<u<0.01,故 0.05>P>0.01,在 α =0.05 水准上拒绝 H,接受 H1,结论与查表法相同。</u<

据研究,当 n 大于 10 时,上式算得的 u 近似正态分布,故计算法只用于 n 值较大时。

因本例资料接近正态分布,故曾用 t 检验的个别比较方法处理过,结果是:t=2.653 0.05>P>0.01,与秩和检验结论相同,但与符号检验结论不同(χ2=2.083,P>0.05),说明符号检验的检验效率比秩和与 t 检验都要低,比较粗糙,而秩和检验的效率与 t 检验较接近。

二、两组资料的比较

此法又称为 wilcoxon 氏两样本法。

处理时也可用查表法或计算法,今以例 10.4 分别说明之。

查表法步骤:

1.各自排队,统一编秩号,即将两组数据分别从小到大排列,但编秩号时要两组统一进行,凡分属于两组的相等数据用平均秩号,如本例 0.042 共三个,取平均序号皆为 8。

2.令较小样本秩号之和为 r,例数为 n 1

3.计算 R',公式为:

R'=n1(n1+n2+1)-r (10.6)

R'是同一个样本资料,当秩号倒排(即由大至小)时较小样本秩号之和。

4.以 R 和 R'两秩号之和中较小者与附表 13 中 R 的临界值比较,以作出判断,其标准仍是:

R>R0.05时 P>0.05

R0.05≥R>R0.01时 0.05≥P>0.01

P≤R0.01时 P≤0.01

例 10.4 请以表 10.2 资料用本法处理之。

表 10.4 九名健康人与八名铅作业工人的尿铅值(mg/L)

健康人秩号铅作业工人秩号
0.00110.0428
0.00220.0428
0.01430.04810
0.02040.05011
0.03250.08214
0.03260.08615
0.04280.09216
0.054120.09817
0.06413
n2=954n1=8R=99

先将本表 10.2 中两组数据各自排队并统一编秩号,结果见表 10.4。

较小样本为铅作业工人组,n1=8,R=99,代入式(10.6)

R'=8(8+9+1)-99=45

R 与 R'两者中以 R'较小,故以 P'值与附表 13 数值比较,得 R 0.05=51,R0.01=45;今 R'=R0.01,故 P =0.01,在 α =0.05 水平上拒绝 H,接受 H 1,差别显著,故铅作业工人尿铅值比健康人高。

计算法步骤:

两组资料比较时,也可用计算法。用计算法时,对两组数据各自排队、统一编秩号同查表法,不同的是求得秩号之和以后计算,公式是:

《医学统计学》u0.05=1.96u0.01=2.58 (10.7)

为便于计算和前后符号一致,n1作为较小样本例数,R 为较小样本的秩和,n2则为较大样本的例数。

本例 n 1=8,R=99,n2= 9 代入公式得:

《医学统计学》

今∣u∣>u0.01, 故 P <0.01,在 α =0.01 水准上拒绝 H 接受 H 1,其结论同查表法,

据研究,当 n 1、n2都大于 8 时,算得的 u 近于正态分布,若例数太少,则以查表法更为精确。

本例如用 t 检验的团体比较处理,则 t =3.169,P<0.01,二者结论一致,但与符号检验结论不同(χ2=2.930,P>0.05)同样说明符号检验较粗糙,检验效率低,而秩和检验与 t 检验的结论较近。

三、两组等级资料的比较

等级资料又称为半计量资料,当两组等级资料比较时,用秩和检验来比较其相差是否显着比用 χ 2检验要恰当。两组等级资料,通常例数都较多,故一般都用计算法,其步骤与两组资料的秩和检验相似,不同的是要求各等级的平均秩号,为此,先要求得各等级的秩号范围。今举例 10.5 说明之。

1.求各等级的平均秩号。为此,先要求出各等级的秩号范围,如等级“-”共 18+8=26 例,共秩号范围自 1~26。要注意的是各等级的秩号范围必须紧相联接。最后一组秩号范围的上限一定等于两组例数之和。求得各等级秩号范围后,再求其下限和上限的平均,即可算得平均秩号,如等级“一”的平均秩号为(1+26)/2=13.5。余类推。

2.求出 R 及其 n 1,为计算方便,把例数少的正常人组的秩号之和作为 R 其例数为 n 1得 R =308,n1=20,n1=32

3.代入式(10.7)得 u 值,即可作结论。

例 10.5,今有 20 名正常人和 32 名铅作业工人尿棕色素定性检查结果如下表 10.5,试问其相差是否显著?

表 10.5 20 名正常人和 32 名铅作业工人尿棕色素定性检查结果

尿棕色素定性结果正常人铅作业工人合计秩号范围平均秩号例数较小组的秩和
188261—2613.5243
+2101227—3832.565
++7739—4542.0
+++3346—4847.0
++++4449—5250.5

n1=20 n2=32 R=308

代入式(10.7)

《医学统计学》

u0.01=2.58,今 u >u0.01,故 P <0.01,在 α =0.01 水准上拒绝 H,接受 H 1。两组相差显著,铅作业工人尿棕色素比正常人为高。

四、多组资料的比较

多组资料的比较也是从排秩号开始,但不是直接用秩和进行检验,有的书籍称之为秩检验(rank test),以示与秩和检验有别,其检验假设也较复杂:在处理完全随机设计的资料时,H:F(X1)=F(X2)=F(X3)=……,即比较的各样本所对应的各总体的分布函数相等,H1:各总体的分布函数不相等或不全相等;在处理随机单位组设计的资料时,H:P(χij=r)=1/n,即内组各秩号 r 之概率相等,都是 1 /n(r=1,2,……,n)而 H 1为:P=(χij=r)≠1/n。

因不同实验设计所得资料的处理也有别,故下面分别举例说明之。

(一)完全随机设计所得资料的比较

用的方法是单因素多组秩检验,称为 Kruskal-Wallis 氏法,或 H 检验。其计算步骤如下。

1. 各自排队,统一编秩号。即将各组数据在本组内从小到大排队,见表 10.6 各含量栏,再将各组数值一起考虑编出统一秩号,见表 10.6 各“秩号”栏,分属不同组的相同数值用平均秩号;

2. 求各组秩号之和 R 1以及各组数 n 1

3. 代入下式计算 H 值:

《医学统计学》(10.8)

式中 N 为各组例数之和,Ri 和 ni 为各组的秩号之和以及例数:

4.查表作结论

当比较的组数多于三组,或组数虽只有三组但每组例数大于 5 时,H 值的分布近于自由度等于组数 - 1 的 χ 2分布,故可用对应的 χ 2值作界值。当三组比较时每组例数均不超过 5 时,H 值与 χ 2值有较大偏离,此时可查附表 14,直接查得 H 0.05和 H 0.01

例 10.6 雄鼠 20 只随机分为四组,第 1、2 组在皮肤上涂用放射性锡(Sn113)标记的三乙基硫酸锡,涂后将皮肤暴露于空气中;第 3、4 组涂药后用密闭小玻璃管套使皮肤与外界空气隔开,三小时后杀死,测肝中放射物,结果如表 10.6,试比较各组含量间有无显著相差?

表 10.6 白鼠皮肤涂药后,肝中放射性 S n113的含量

涂干药后敞开涂湿药后敞开涂干药后密闭涂湿药后密闭
含量秩号含量秩号含量秩号含量秩号
0.0011.82110.6653.6714
0.422.52.79120.7164.4616
0.422.53.07130.7574.5118
0.5944.19150.8385.0719
0.9794.47171.49106.0220
RiR1=19R2=68R3=36R4=87
nin1=5n2=5n3=5n4=5

各组资料各自排队,统一编秩号,以及求各组的秩号之和 R i和例数 n i见表 10.6

代入式(10.8)得

《医学统计学》

本例组数为 4(>3),查 χ 2值表,ν=4-1=3,得 χ 20.05,3=7.81,χ20.01,3=11.34,今 H >χ20.01,3故 P <0.01,在 α =0.01 水准上拒绝 H,接受 H 1,即各组肝中放射性 Sn113含量差别显著。

(二)随机单位组设计所得资料的比较

用的方法是双因素多组秩检验,即 Friedman 氏法。

处理这种资料时可分成两步,对两个因素分别进行检验。现用例 10.7 说明其计算步骤:

先比较四种防护服对脉搏的影响

1.将穿四种防护服的每一受试者的脉搏数从小到大编秩号,当数值相等时用平均秩号,见表 10.7 各秩号栏。

2.求各防护服组秩号之和 Ri

3.代入式 10.9 求 H 值

《医学统计学》(10.9)

式中 t(treatment)为处理组数,b(block)为单位组数。

4.查表作结论

当 t >4 或 t = 4 且 b >5 或 t = 3 且 b >9 时,H 值的分布近于自由度 ν =t- 1 时的 χ 2分布,故可查相应的 χ 2值与 H 值比较作出判断:如 t、b 不能满足上述条件,则所算得的 H 值与 χ 2分布有较大偏离,需查附表 15 作判断。

例 10.7 受试者 5 人,每人穿四种不同的防护服时的脉搏数如表 10.7,问四种防护服对脉搏的影响有无显著差别?又五个受试者的脉搏数有无显著差别?

表 10.7 比较穿四种防护服时的脉搏数(次 / 分)

受试者防护服 A 防护服 B 防护服 C 防护服 D
编 号脉搏秩号脉搏秩号秩号秩号脉搏秩号
1144.44143.03133.41142.82
2116.22119.24118.03110.81
3105.81114.83113.22115.84
498.01120.03104.02132.84
5103.82110.64109.83100.61
秩秩号和 R i10171112

t=4b=5

排队、编秩号、求各比较组的 R i见表 10.7 所示。

将表 10.7 中各数代入式 10.9,得

《医学统计学》

本例 t =4,b= 5 查附表 15,得 H 0.05=7.80,今 H >H0.05,故 P >0.05,在 α =0.05 水准上接受 H,无显著差别,故四种防护服对脉搏的影响无显著差别。

再比较五名受试者的脉搏数:

将数据列出(同表 10.7),但秩号是按每种防护服中受试者脉搏的数值从小到大编定,然后求出各受试者秩号之和 R 1,详细见表 10.8

表 10.8 比较五名受试者的脉搏数

受试者防护服 A 防护服 B 防护服 C 防护服 D Ri
编 号脉搏秩号脉搏秩号脉搏秩号脉搏秩号
1144.45143.05133.45142.8520
2116.24119.23118.04110.8213
3105.83114.82113.23115.8311
498.01120.04104.01132.8410
5103.82110.61109.82100.616

t=5b=4

将表 10.8 所得各数据代入式 10.9 得

《医学统计学》

此处 t >4, 故查 ν =5-1= 4 时的 χ 2值表,得:χ20.05,4=9.49,χ20.01,4=13.28,今 χ 20.05,4<h<x20.01,4,故 0.05>P>0.01,在 α =0.05 水准上拒绝 H,接受 H 1差别显著;即五名受试者脉搏数相差显著,1 号受试者最高,5 号受试者最低。</h<x

五、多组资料间的两两比较

当多组间的差别显着时,则需进一步判断那些组之间的差别有显着性,这个问题的解决方法与第八章第二节中的多个均数间的两两比较很相似,在例 10.6 四个实验组涂放射性锡的例子中,结果为 H >χ20.01,3,P<0.01,现以此为例,进一步作各组两两间比较,步骤如下:

1.将各组秩和从大到小依次排队,并求得两两间的相差,见表 10.9

2.计算标准误,计算公式是:

《医学统计学》(10.10)

式中 σ 为任意两个秩和之差的标准误,n 为各组例数,a 为处理数,此式要求各组例数相等,

3.查 q 值表定界限作结论

仍查方差分析时用的 q 值表,v→∝

各 q 值须与处理数相同的标准误相乘,如处理数为 2 的 q 值要乘以处理数为 2 时的标准误,2.77×6.77=18.75,3.64×6.77=24.64 等,余类推。

例 10.6 资料两两间比较如下:

表 10.9 每两组秩和之间的相差及其显著性

组别秩和 R iRi—19Ri—36Ri—68
涂湿药后密闭8768**51**19*
涂湿药后敞开6849**32**
涂干药后密闭3617
涂干药后敞开19

计算标准误:n=5,用式 10.10

《医学统计学》

查 q 值表,得:

处理数234
q0.05,∞2.773.313.63
q0.01,∞3.644.124.40
q0.05,∞σ18.7533.1048.02
q0.01,∞σ24.6441.2058.21

两两比较后的结论见表 10.9 所示,结合起来看,结论是:涂湿药的比涂干药肝中放射性 Sn113含量要高,涂湿药中,密闭的比敞开的含量高。

第四节 秩相关

参数法中介绍的直线相关只适用于正态双变量资料,但实际资料有时不能满足这些条件。如两事物有相关,但其观测结果不是计量资料而是等级资料,此时即可用秩相关来表达和分析。

本节介绍常用的 Spearman 秩相关。今以例 10.8 介绍其一般计算步骤:

1.将资料列成便于计算用的表,见表 10.10,为便于编秩号,在列表时可按资料中一个变量的原始数据由小到大排队,但另一变量中各相应数值必须随成对关系变动,不能打乱。

2.两变量各自从小到大编秩号,同一变量数值相等时求平均秩号,见表 10.10 中的“秩号”栏。

3.求各对变量值秩号之差数 d,再求∑d2

4.代入式 10.11,计算秩相关系数 r a(又称 Spearman 秩相关系数)

《医学统计学》(10.11)

式中 n 为变量值的对子数。算得的 r 8与直线相关系数的意义相同,其范围在 -1~+ 1 之间,也分为正相关和负相关。

5.查表作结论

当 n >50 时,秩相关系数显著性的界值与直线相关系数相近似,故可根据 ν =n- 2 查附表 11 来作判断:当 n≤50 时,则查阅附表 16。

例 10.8 通过普查得到七个地区居民中单纯性甲状腺肿患者百分比与当地食物、水中的含磺量如表 10.10 右侧第一、第三两栏所列。问该两事物是否显著相关?

表 10.10 单纯性甲状腺肿患者百分数

与当地食物水中含碘量的秩相关分析

含 碘 量患者百分数秩号差 d d2
X1秩号X2秩号
71116.97-636
8124.46-416
12632.55-24
15440.8311
15551.1411
17860.62416
20170.21636

n=7∑d2=110

将 n,∑d2代入式 10.11 得:

《医学统计学》

本例 n =7, 查例表 16,得 r 80.05,7=0.786,r8 0.01,7=0.929, 今∣r8∣>r80.01,7故 P <0.01,α=0.01 水准上拒绝 H,接受 H 1,故某地居民单纯性甲状腺肿患者百分数与当地食物、水中含碘量之间呈显著的负相关。

第五节 参照单位分析

参照单位分析适用于等级资料,如按疗效分为治愈、好转、无效、恶化,按反应分为 -、+、++、+++,和按麻醉效果分为Ⅰ、Ⅱ、Ⅲ、Ⅳ级等的资料。

参照单位分析又称 Ridit 分析,常是将等级资料中例数较多的一组的分布作为一个特定的分布来计算各等级的参照单位值(R 值),再参照这些 R 值计算各组的加权平均 R 值并进行假设检验。Ridit 的前三个字母是 Relative to an indentifieddistribution 的缩写,-it 是 unit 的字尾,故其含义是“相对于某一特定分布的单位”。由于有时将 idantifieddistribution 称为 reference distribution,故译为参照单位。

参照单位分析一般计算步骤如下:

1.选标准组

标准组的选择可根据各组例数多少以及所研究的问题而定。一般选例数多的组为标准组。如果各组例数相近或都较少时,可用合计数为标准组,(但若各组例数过少,则不宜用此法,可用秩和检验);若研究的是新、旧药物的疗效,则可以旧药为标准组;若研究的是患者与正常人相比较,则可选正常人为标准组。另外,标准组中的数字要求分布于各个等级,如果有的等级为 0 或过于少,将对计算结果产生影响。本例选辩中西组为标准组。

2.计算标准组的参照单位值,(R 值)

计算前最好将各等级按由弱到强的次序排列。计算的步骤与方法是:①计算标准组各等级的 1 / 2 值②求标准组累计例数并下移一行③将①、②求得的值按各等级相加④以标准组总例数除之,即得标准组各等级的 R 值。

3.参照标准组的 R 值,计算各组的平均 R 值(r)

将每组中各不同疗效者例数与标准组对应的 R 值相乘,将乘积加总,再除以该组总例数,即为 R,公式为

《医学统计学》(10.12)

4.计算各组的 95% 可信区间进行显著性检验,R 值的标准差为《医学统计学》,故 R 值的标准误为

《医学统计学》(10.13)

R 的 95% 可信限为

《医学统计学》

(10.14)

按此公式算得各组的 95% 可信区间后,作两两间的比较,凡无重叠者即有显著差别;有重叠者则无显著差别。

例 10.9 四种疗法治疗溃疡病的疗效如表 10.11,试比较其疗效。

表 10.11 几种疗法治疗溃疡病的疗效

疗效例 数百分比(%)
西组中组辩中组辩中西组西组中组辩中组辩中西组
治愈15101621441.718.540.061.1
显效811139322.220.432.526.6
好转92093925.037.022.511.2
无效4132411.124.15.01.1
合计365440350100.0100.0100.0100.0

注:西组为单纯西药组,中组为单纯中药组,辩中组为辩证分型中草药组,辩中西组为辩证分型中西医结合组。

选辩中西组为标准组,并计算其 R 值如表 10.12

表 10.12 标准组 R 值计算表

疗效例数
(1)
(1)/2
(2)
累计例数并下移一行(3)(2)+(3)(4) R 值(4)/n(5)
无效42.02.00.006
好转3919.5423.50.067
显效9346.54389.50.256
治愈214107.0136243.00.694

N=350

R 值的计算,也可用百分比进行,结果相同,见表 10.13

表 10.13 用百分比求 R 值的计算表

疗效百分比
(1)
(1)/2
(2)
累计例数并下移一行(3)(2)+(3)
(4)
R 值(4)/n
(5)
无效1.10.550.550.006
好转11.25.601.16.700.067
显效26.613.3012.325.600.256
治愈61.630.5538.969.450.695

N=100.0

再计算各组的 R 值(加权平均参照单位值),用式(10.12),式中各符号结合本例含义是

式中∑为总和,f 为各不同疗效者例数,R 为与 f 同一疗效之标准组的 R 值。

标准组的 R 值应为 0.5,可用以核对 R 值是否算对。

本题各组 R 计算如下:

R 辩中西 =(4×0.006+39×0.067+93×0.256+2.4×0.694)/350=0.500

R 西 =(4×0.006+9×0.067+8×0.256+15×0.694)/36=0.363

R 中 =(13×0.006+20×0.067+11×0.256+10×0.694)/54=0.207

R 辩中 =(2×0.006+9×0.067+13×0.256+16×0.694)/40=0.376

将各组 R 值与例数代入式 10.14,得各组 95% 可信限如下:

辩中西

《医学统计学》

西组

《医学统计学》

中组

《医学统计学》

辩中组

《医学统计学》

将各组的 95% 可信区间图示如下:

《医学统计学》

图 10.1 四种疗法治疗溃疡病疗效的比较(Ridit 分析)

根据以上四个区间及其示意图可以看出,辩中西组的区间与其它三组都不重叠,其它三组中西组和辩中组两区间有较大重叠,而与中组都是稍有重叠,在这种情况下可作较精确的分析,因为上述 R 值的标准差为《医学统计学》,或方差为 1 /12,只是一个近似值,据数理统计研究,R 值的方差是一个逐渐接近 1 /12 并以 1 /12 为最大值。它与等级数有关,随着等级的增多,最大方差愈来愈接近 1 /12。表 10.14 是资料的等级数与最大方差。

表 10.14 各种等级数时的最大方差

等级数23456789
最大方差1/162/275/642/2530/4324/4921/25620/243

实际资料的方差都小于 1 /12,故用以推算得的可信区间偏大,假设检验结论比较保守。本例中组与辩中组的区间重叠部分甚少,用表 10.14 内数值代替 1 /12,则可得到更为适当的结果。该资料等级数为 4,查表 10.14 得最大方差为 5 /64 故标准误为《医学统计学》,以此计算西组、中组、辩中组的 95% 可信区间如下:

西组

《医学统计学》

中组

《医学统计学》

辩中组

《医学统计学》

这样就可以认为中组与辩中组疗效相差也是显著的,虽然这里用的仍是最大方差,但是等级为 4 时的最大方差,假设检验结论还是比较保守的,但比用 1 /12 要精确些,当等级小于 4 时,更以查此表数值为宜。

练习题

1.试用符号与成对资料的秩和,检验两组鼠肝中维生素 A 含量(国际单位 / 克)有无显着差异,并与 t 检验的结果作比较。

不同饲料组鼠肝维生素 A 含量

大鼠配偶组肝中维生素 A 含量差数 d
正常饲料组维生素 E 缺乏组
1355024501100
220002400-400
3300018001200
439503200750
538003250550
6375027001050
734502500950
8305017501300

2.试用符号及两组资料的秩和,检验某地克山病患者 10 人与健康者 13 人的血磷含量(mg%)有无显著差别,并与 t 检验的结果作比较。

急性克山病患者与克山病区健康人血磷 (mg%) 测定值比较

患者2.603.243.733.734.325.185.585.786.406.53
健康人1.671.981.982.332.342.503.603.734.144.174.574.825.78

3.在研究人参镇镇静作用的实验中,曾有人以 5% 人参浸液对某批小白鼠 20 只作腹腔注射,而以等量蒸馏水对同批 12 只小白鼠作同样注射为对照,问能否说人参有显著的镇静作用?

人参镇静作用的实验结果

镇静等级例 数
人参组对照组
411
±1
+21
++1
+++12

4.试用秩和检验健康人和各期矽肺病人的血清粘蛋白含量(毫克 /100 毫升)间有无显著差异。

健康人与各期矽肺病人的血清粘蛋白含量(毫克 /100 毫升)

正常人0—I 期矽肺 I 期矽肺Ⅱ期矽肺Ⅲ期矽肺
64.2662.0165.4574.9777.11
42.8467.3369.6388.0682.58
52.4870.4069.7393.4783.53
48.1978.9174.9795.1089.01
80.2285.6880.44100.6797.58
69.6185.6880.44101.14103.81
48.1991.1595.20113.52107.10
58.9094.8296.39118.98178.42

5.12 名 2 - 7 岁急性白血病患儿的血小板及其出血状况的资料如下表,根据这一资料能否判断血小板数目与出血严重程度之间有显著相关?

12 名急性白血病患儿的血小板出血状况

血小板出血状况
12,160明显
13,790较明显
16,500个别出血点
31,050
42,600较明显
34,270较明显
74,240
106,430
126,170
129,000
143,880明显
200,400

6.试比较下表中三种复方小叶枇杷对老年性慢性支气管炎治疗的效果。

三种复方小叶批杷对老年性慢性支气管炎疗效的比较

疗效例 数百分比(%)
老复方复方 I 复方Ⅱ老复方复方 I 复方Ⅱ
近控36419.44.02.6
显效11518930.117.823.1
好转184442548.243.664.1
无效4735412.334.610.2
合计38210139100.0100.0100.0

第十一章 实验设计

第一节 实验设计的意义、原则与基本内容

一、实验设计的意义

实验设计是科学研究计划内关于研究方法与步骤的一项内容。在医学科研工作中,无论实验室研究、临床疗效观察或现场调查,在制订研究计划时,都应根据实验的目的和条例,结合统计学的要求,针对实验的全过程,认真考虑实验设计问题。一个周密而完善的实验设计,能合理地安排各种实验因素,严格地控制实验误差,从而用较少的人力、物力和时间,最大限度地获得丰富而可靠的资料。反之,如果实验设计存在着缺点,就可能造成不应有的浪费,且足以减损研究结果的价值。总之,实验设计是实验过程的依据,是实验数据处理的前提,也是提高科研成果质量的一个重要保证。

二、实验设计的原则

实验设计有属于专业方面的,有属于统计方面的。从统计方面说,主要应当考虑对照、重复、随机化等问题,这就是所谓实验设计的三原则。其具体内容我们将在第二、三、四节介绍。

三、实验设计的基本内容

(一)拟定相互比较的处理 所谓处理,指的是在实验研究中欲施加给受试对象的某些因素。如营养实验的各种饲料,治疗某病的几种疗法或药物,药理研究中某药的各种剂量等。在实验的全过程中,处理因素要始终如一保持不变,按一个标准进行实验。如果实验的处理因素是药物,那么药物的成份、含量、出厂批号等必须保持不变。如果实验的处理因素是手术,那么就不能开始时不熟练,而应该在实验之前使熟练程度稳定一致。

(二)确定实验对象及数量 这里指的是实验所用的动物或活体组织标本等。在实验设计中,要根据实验观察的目的与内容,明确规定采用什么样的实验对象,实验对象中的每个实验单位必须具备的条件与要求,以保证受试对象的一致性。实验对象需要有一定的数量,例数不能太少,也不宜过多。如何估计例数,详见第四节。

(三)确定将各实验单位分配到各种处理中去的原则 这主要是随机分配或随机化问题。第三节将介绍几种常用的随机分组方法。

(四)拟定观察项目和登记表 要根据研究目的和任务,选择对说明实验结论最有意义,并具有一定特异性、灵敏性、客观性的观察项目。必要的项目不可遗漏,数据资料应当完整无缺;而无关紧要的项目就不必设立,以免耗费人力物力,拖延整个实验的时间,尔后,要按照观察项目之间的逻辑关系与顺序,编制成便于填写和统计的登记表,以便随时记录实验过程中获得的数据资料。同一项目的度量衡单位必须统一符号(如 +、++、+++ 等),应有明确的定义。

(五)拟定对资料整理分析的预案 这就是对将获得的数据资料准备如何进行整理?要计算哪些统计指标?用什么统计分析方法?事先必须有个初步的设想。例如对计数资料,是计算率还是百分比?若计算率,分子是什么?分母是什么?各组同一项目的某个率或百分比如何进行比较?又如对计量资料,是计算算术均数、几何均数还是中位数?同一项目各均数间应采用什么方法作比较?切忌实验设计时不认真考虑,实验过后拿数字去找统计方法。

第三节 常用的随机化方法

一、随机化的重要性

随机化是指每个受试单位以概率均等的原则,随机地分配到实验组与对照组。例如将 30 只动物等分为 3 组,对其中每只动物来说,分到甲组、乙组、丙组的概率都应是三分之一。如果违背随机的原则,不论是有意或无意的,都会人为地夸大或缩小组与组之间的差别,给实验结果带来偏性。例如在营养学研究中,有的以实验动物体重增加情况作为饲料营养价值高低的标志。但体重的增加还同动物健康状况、食量大小等因素有密切关系。如果在实验研究之前,实验者希望某组获得较理想的结果,于是将那些雄性的、健康状况最佳的、食量最大的动物都分到该组,这就是有意夸大了组间差别,必须造成实验结果虚假和不稳定。为了避免此类偏性,随机化就是一个重要手段。如本例,要求分配到各组的动物必须性别相同,体重相近,健康状况相似。总之要使各处理组非实验因素的条件均衡一致,以抵消这些非实验因素对实验结果的影响。强调实验设计要遵守随机化原则,还有一个理由,就是只有合乎随机原则的资料才能正确应用数理统计上的各种分析方法,因为数理统计各种理论公式都是建立在随机化原则基础上的。那些事先加入主观因素,以致不同程度失真的资料,统计方法是不能弥补其先天不足的,得出的结论也必然是错误的。

二、随机分组举例

数理统计学家根据概率论的原理编制了随机数字表 (附表 17) 与随机化分组表(附表 18),它们都是科研工作中用于随机化的工具表。现举例说明其用法,并介绍几种简单而常用的实验设计。

(一)配对设计 配对设计是将受试对象按某些特征或条件配成对子,然后分别把每对中的两个受试对象随机分配到实验组与对照组(或不同处理组)。这种设计的优点是能缩小受试对象间的个体差异,从而减少实验误差,提高实验效率。受试对象配对的特征或条件,主要是指年龄、性别、体重、环境条件等非实验因素,不要以实验因素作为配对条件。如在动物实验中,常把窝别或性别相同、原始体重相近的两头动物配成对子;在人群试验中,有时把性别相同、年龄相近、生活或工作条件相似的两人配成对子。

在某些医学实验中,常就同一受试对象作比较,称为同体比较或自身对照,例如同一组病人用某药治疗前后某项指标的比较,同一批受试对象施加某种处理因素后不同部位或不同器官变化情况的比较,同一批检品施以不同检测方法或培养方法所得结果的比较,等等。从统计方法上说,这也属于配对实验。

采用配对设计时,实验者在整个实验过程中,必须始终能辩认属于同一对子的是哪两头动物,因此动物编号是非常重要的。记录实验数据应保持每对的一一对应关系,不能错乱或缺失。否则,就失去配对设计的意义了。

例 11.1 设有动物 20 头,要求按配对设计分为甲、乙两组。

先将同性别、同体重 (或体重非常接近) 的两头动物配成一个对子,共配成 10 对,并依次编为 (1)-(10) 号,然后从附表 17“随机数字表”的任何一页、任何一处开始,依一定方向抄下 10 个数字,依次排在配对号下。本例由附表 17 第 (1) 页第六横行第一个数字起向右抄录 10 个数字。凡随机数字为单数者,该对子中的第一头动物分入甲组,而同对子中的另一头动物则归入乙组;若随机数字为双数,就把该对子中的第一头动物分入乙组,而同对子中的另一头动物则归入甲组。于是本例分配结果如下:

配对号(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)
随机数字16227794394954435482
第一头动物组别
第二头动物组别

配对设计使用附表 18“随机化分组表”也是很方便的。若对子数在 10 对以内,可使用该表第 (1) 页,不足 10 对,例如只有 8 对,则弃去其中大于 8 的数字;若为 11—20 对,可使用该表第 (2) 页,不足 20 对,例如只有 15 对,则将其中大于 15 的数字舍弃;余类推。上例配成对子后,从该表第 (1) 页的任意一方抄录任意一个纵行或横行的 10 个数字,依次排列在配对号下,仍按上述分组方法确定每对动物的组别。

(二)完全随机设计 完全随机设计是将实验对象完全随机地分配到实验组与对照组或几个对比组中去,其设计和统计处理都比较简单,但实验效率较低。按实验的内容和要求。各组例数可相等或不等。

例 11.2 设有同性别、体重在一定范围内的健康动物 20 头,试用完全随机方法等分为甲、乙两组。

先将动物按原始体重由小至大依次编为 (1) 至(20)号,然后从随机数字表上抄录随机数字。假定本例自第 (2) 页第五纵行第一个数字起,向下抄 20 个数字。令随机数字的单数代表甲组,双数 (0 也作为双数) 代表乙组。结果分到甲组的只有 9 头动物,分到乙组的却有 11 头动物。因此乙组要调整一头动物到甲组去。调整动物组别,仍要用随机方法来决定。于是再向下抄录第 21 个数字是 21,用 11 除之,得余数为 10,我们把第十个“乙”改为“甲”,即把第 (19) 号动物调整到甲组,经过调整,两组动物数相等了。

动物编号(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)
随机数字67544669266982891587
组 别
调整组别
动物编号(11)(12)(13)(14)(15)(16)(17)(18)(19)(20)
随机数字46592240663584575430
组 别
调整组别

从上面的例子可以看到,随机数字虽属随机,但有的数字均匀性不够理想,以致分得的各组例数常不相等,不得不进行调整,增加了使用时的困难。若用附表 18 随机化分组表则较简便。仍如上例,因共有 20 头动物,所以应使用该表第 (2) 页。假定我们取其中第 2 组随机数字,仍令单数代表甲组,双数代表乙组,于是分配结果如下:

动物编号(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)
随机数字19040315131017120916
组别
动物编号(11)(12)(13)(14)(15)(16)(17)(18)(19)(20)
随机数字05020611082007180114
组别

例 11.3 设有同性别、体重在一定范围内的健康动物 18 头,要求等分为甲、乙、丙三组。

按前面的方法给动物编号。本例从附表 17(5)第十一横行与第二十纵行相交处的数字起,向左抄下 18 个数字。因为要分成三组,所以每个随机数目要用 3 来除 (若分四组即用 4 来除,余类推),并写下余数。如果被除数小于除数,商数为 0,那么被除数即为余数;如果被除数为 0,余数亦为 0。然后按余数分组:余数为 1,即将动物归入甲组;余数为 2,归入乙组;余数为 0,归入丙组(分四组时,余数为 3 归入丙组,余数为 0 归入丁组,余类推)。分组结果,甲、乙两组各有 5 头动物,而丙组有 8 头动物。要使三组动物相等,则须将丙组的两头动物调整给甲、乙组各一头。我们仍接着向左抄录两个数目,得 83、89。先用 8(因为丙组有 8 头动物) 去除 83,得余数为 3,于是把原分配的第三个“丙”即第 (6) 号动物改为“甲”;再用 7(因丙组还有 7 头动物)去除 89,得余数为 5,于是把剩余的第五个“丙”即第 (9) 号动物改为“乙”。这里要指出,调整组别时,如果随机数字被除尽,余数为 0,将调整哪一个?如本例,若除数是 8 就调整第八个“丙”,若除数是 7 就调整第七个“丙”,余类推。

动物组别(1)(2)(3)(4)(5)(6)(7)(8)(9)
随机数字469016181736872433
以 3 除后之余数112
组 别
调整组别
动物编号(10)(11)(12)(13)(14)(15)(16)(17)(18)
随机数字569759479697806940
以 3 除后之余数2122121
组 别
调整组别

本例若用表 18,仍应从第 (2) 页任取一组随机数字。假定取第 8 组,先舍去其中大于 18 的数字,然后以随机数目 01—06 分入甲组,07—12 分入乙组,13—18 分入丙组。结果如下:

动物编号(1)(2)(3)(4)(5)(6)(7)(8)(9)
随机数字171409150513020818
组别
动物编号(10)(11)(12)(13)(14)(15)(16)(17)(18)
随机数字041603061101100712
组别

3.随机单位 (区) 组设计 这种设计实际上是配对设计的扩大。配对设计是将多方面条件近似的受试对象配成对子,而这种设计是将多方面条件相同或相近的受试对象组成单位组(亦称区组或配伍组)。每个随机单位组的受试对象数目取决于处理的数目。如果一个实验安排了四种不同处理,那么每个单位组就应有四个受试对象。有多少个单位组,则每种处理就可以分配到多少个受试对象。这种设计,各随机单位组的受试对象不仅数目相等,而且生物学特点也较均衡,缩小了组间差别,实验效率较高。

例 11.4 设有动物 24 头,要求按随机单位组设计分为四个处理组。

先将每四头性别、体重等条件近似的动物组成一个单位组,共得六个单位组。第一个单位组编为 (1) 至(4)号,第二个单位组编为 (5) 至(8)号,余类推。从附表 17 第 (6) 页第十纵行最下一个数字开始,向上抄写 18 个数字,每个单位组内填入三个数字、留一个空位。然后将同一单位组中的三个随机数字依次以 4、3、2 除之,再按余数确定前三个动物组别:如第一单位组中第一个余数是 1,在“甲乙丙丁”四字中列第一位者为“甲”,故将 (1) 号动物分入甲组;第二个余数是 2,这时在“乙丙丁”三字中列第二位者为“丙”,故将 (2) 号动物分入丙组;第三个余数是 0,这里在“乙丁”二字中“丁”列第末位,故将 (3) 号动物分入丁组。该单位组内剩下的 (4) 号动物不能随机分配,必须分入乙组。值得注意的仍然是在整个实验过程中,必须始终能辨认属于同一单位组的是哪几头动物。

动物编号(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
随机数字171482985477082338
除数432432432
余数12212
组别
动物编号(13)(14)(15)(16)(17)(18)(19)(20)(21)(22)(23)(24)
随机数字641442482688688563
除数432432432
余数2211
组别

随机单位组设计亦可用附表 18,如本例,按上述方法给动物编号后,取第 (1) 页的任一方数字。若取第 2 方,我们从第一横行中摘数字 1—4,依次填入第一个单位组的各动物号下,舍去其它数字;再取第二横行中的 1 至 4 依次填入第二个单位组各动物号下;依次类推。随机数字即各动物所属处理组别。结果如下:

动物编号(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)
随机数字324123144132
组 别
动物编号(13)(14)(15)(16)(17)(18)(19)(20)(21)(22)(23)(24)
随机数字134224314231
组 别

第三节 样本含量的估计

一、估计样本含量的意义及条件

我们在第一节里曾提到重复的原则。所谓重复,是指各处理组(对照在实验研究中也被看作是一种处理,而且是必不可少的)的受试对象都应有一定的数量,例数不能太少,所以在抽样调查、临床观察或实验研究中,首先总要考虑样本含量(或叫样本大小)问题。样本太小,使应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据;但样本太大,会增加实际工作中的困难,对实验条件的严格控制也不易做到,并且造成不必要的浪费。所以这里所说的样本含量估计,系指在保证研究结论具有一定可靠性的条件下,确定最少的观察或实验例数。

但是,样本含量又是个比较复杂的问题。要讲清在各种情况下估计样本含量的方法和原理,那是很繁杂的。而且,不同的参考书上介绍的计算公式和工具表往往不一样,以致同一问题所得的结果也可能有出入。所以,不论按哪种公式或工具表求得的结果,也只能是个近似的估计数。

估计样本含量,必须事先明确一些条件与要求:

(一)根据研究目的与资料性质,要先知道一些数据。例如要比较几组计数资料,先要知道百分数或率;要比较几组计量资料,先要知道平均数及标准差。这些数据可从以往的实践,预备试验的结果、兄弟单位的经验或文献资料里得来。

(二)确定容许误差。由于抽样误差的影响,用样本指标估计总体指标常有一定的误差,因而要确定一个样本指标与总体指标相差所容许的限度。此值要求越小,所需例数就越多。

(三)确定把握度(1—β)。β 是第二型错误的概率;而 1—β 的意思是:如果两组确有差别,则在每 100 次实验中平均能发现出差别来的概率。把握度可用小数(或百分数)表示,一般取 0.99、0.95、0.90、0.80、0.50。要求把握度越高,则所需例数直多。

(四)确定显著性水平,即第一型错误的概率(α)。这就是希望在 α =0.05 的水准上发现差别,还是希望在 α =0.01 的水准上发现差别。α 越少,所需例数越多。

此外,估计样本含量时还应当根据专业知识确定用单侧检验或双侧检验。同一实验,若既可用单侧检验又可用双侧检验,则前者所需例数要少些。

二、用计算法估计样本含量

我们运用前面学过的某些假设检验公式,就可以进行样本含量的计算。下面仅举两例略作介绍。这里的公式仅适用于 α =0.05,1—β=0.50。而且都是双侧检验。

(一)两个率比较时样本含量的计算 令 n 为每组所需例数,P1、P2为已知的两个率(用小数表示),P 为合并的率,当设两组例数相等时,即 P =(P1+P2)/2。q=1=p,则

《医学统计学》(11.1)

例 11.5 据某院初步观察,用甲、乙两种药物治疗慢《医学统计学》性气管炎患者,近控率甲药为 45%,乙药为 25%。现拟进一步试验,问每组需观察多少例,才可能在 α =0.05 的水准上发现两种疗法近控率有显著相差?

本例 P 1=0.45,P2=0.25,P=(0.45+0.25)÷2=0.25,q=1-0.35=0.65, 代入式 11.1

每组需观察 46 人,两组共观察 92 人,注意:例数问题不同于一般数学计算中的四舍五入,凡是有小数的值,应一律取稍大于它的正整数,如本例 45.5 取 46, 若为 45.1 也应取 46。

(二)个别比较 t 检验样本含量的计算 令 n 为所需样本数,S 为差数的标准差,X 为差数的均数,t0.05O为 t 值表上相当于 P =0.05 的 t 值,4 为 n 足够大时 t 20.05=1.962的数,则

大样本《医学统计学》(11.2)

小样本《医学统计学》(11.3)

例 11.6 用某药治疗胃及十二指肠溃疡病人,服药四周后胃镜复查时,患者溃疡面平均缩小 0.2cm2,标准差为 0.4cm2,假定该药确能使溃疡面缩小或愈合,问需多少病人作疗效观察才能在 α =0.05 的水准上发出用药前后相差显著?

本例 X=0.2,S=0.4,先代入式(11.2)

《医学统计学》

由于 n <30,故用式(11.3)重算。当 n=16,ν=16-1=15,t0.05=2.131,

《医学统计学》

当 n=19(略大于 18.16),ν=19-1=18,t0.05=2.101

《医学统计学》

当 n=18,ν =18-1=17,t0.05=2.110

《医学统计学》

故至少需用 18 人作疗效观察。

三、用查表法估计样本含量

当要求平均有 80%、90% 以上的机会能发出相差显着或非常显着时,计算公式比较复杂,数理统计上已编制成工具表,一查便得,附表 19 只是其中的一部分。我们仍以前面的例题来介绍这些表的用法。

(一)两个率比较时所需样本含量 对于两个率的比较,单侧检验可查附表 19(1),双侧检验查附表 19(2)

仍用例 11.5 来说明。本例 P 1=45%,P2=25%,δ=45%-25%=20%,设 α =0.05,把握度为 0.80。如果已知甲药疗效不可能低于乙药,可用单侧检验,查附表 19(1)。我们从“较小率”栏中找到 25 横行,再从上方找到 δ =20 直行,基相交处,读上行数字得 69,即每组最少需要 69 例,两组共需 138 例。

如果两个率(或百分数)都超过 50%,怎样使用这个表呢?假定甲组阳性率是 80%,乙组阳性率是 65%,两组阳性率相差 15%。这时先求两组的阴性率,于是甲组阴性率为 20%,乙组阴性率为 35%,两组阴性率相差仍为 15%。若用双侧检验,我们查附表 19(2),从“较小率”栏找到 20 横行,再从上方找到 δ =15 直行,其相交处上行数字为 135,即每组需检查 135 例(两组共 270 例)将有 80% 的机会在 α =0.05 的水准上发现两组阳性率相差显著。

若表中查不到题中的“较小率”及 δ,可用最接近的值或内插法求 n,但宁可使 n 偏大,以免估计的样本含量偏少。

(二)个别比较 t 检验所需的样本含量 这是配对比较,应查附表 20。使用该表时,先要求出差数的总体均数 μ 与总体标准差 σ 之比,即 δ =μ/σ,当 μ 与 σ 未知时,可分别用 X 与 S 作为估计值。

仍用例 11.6 来说明,本例 X =0.2,S=0.40, 故 δ =μ/σ=0.2/0.4=0.5。若设 α =0.05,1—β=0.90, 用双侧检验,查附表得 20,得 n =44,即需观察 44 例病人。若设 α =0.05,1—β=0.50,则 n =18, 同计算法结果一致。

(三)两个均数比较所需样本含量 应查附表 21。先要求出两总体均数之差与总体标准差这比,即 δ =(μ12)/σ。若 μ 1及 μ 2未知时,可分别以 X 1及 X 2估计之;σ 未知时,可以合并标准差 S 估计之。

例 11.7 某职业病防治所用两种疗法治疗矽肺患者,一个疗程后,患者血清粘蛋白下降值甲疗法平均为 2.6(mg%), 乙疗法平均为 2.0(mg%,)两种疗法下降值之合并标准差为 1.3(mg%)。若发现两组疗效相差显著,每组至少应观察多少病人?

本例 X 1=2.6,X2=2.0,S=1.3, 故 δ =(μ12)/σ=(2.6-2.0)/1.3=0.46。若设 α =0.05,1—β=0.50,用双侧检验,查附表 21,δ=0.46 查不到。在这种情况下,可用邻近而略小的 δ 值代替,或用内插法估计。本例若查 δ =0.45,得 n =39,即每组需要 39 例,两组共需 78 例。若用内插法计算,当 δ =0.45 时所需例数是 39,δ=0.50 时所需例数是 32,所以 δ =0.46 时所需例数是:

《医学统计学》

答案是:每组需要至少观察 38 例,两组共需观察 76 例。

[附] 资料的综合分析

前面几章介绍了常用的统计方法。在实验工作中,必须根据研究目的与资料性质,并结合专业知识,恰当地运用统计方法,才能做出正确的、符合实际的结论。例如:某院为探明胃液及胃组织的瘤胚抗原(Carcino embryonic Antigen CEA)在胃癌诊断、癌前病变筛选及随访方面的意义,胃液、胃组织 CEA 含量的相互关系,以及 CEA 与胃组织病理学改变的关系,测定了各种胃病患者的胃液、胃组织及血清中 CEA 含量,并用同样方法测定了部分正常人胃液 CEA 含量作为对照。表 1、表 2 是测量结果的一部分。下面我们简要介绍统计处理的一般程序及统计方法的选择。

表 1 三组不同人员胃液癌胚抗原(CEA)测定结果

组别胃液 CEA 含量(ng/ml)定性结果
阳性阴性
正常人组20.430.2210.4365.056.837.8230
265.3175.0169.8256.4254.0262.3
170.5360.078.486.4128.024.1
28.5108.5472.5158.6238.7253.6
57.0189.659.3259.3380.2210.5
64.687.3
萎缩性胃炎组281.0377.1230.0537.9248.7571.42114
766.2495.o87.3389.8423.9577.3
66.8521.3327.8421.4149.747.5
425.7270.8378.5228.0538.4245.6
584.1648.8485.6110.8398.7452.6
587.786.8532.1311.6442.2
胃癌组480.0488.9350.7652.81400.0850.0244
725.6590.0765.01200.0231.2485.3
600.01380.0438.5652.4432.8296.1
608.8688.5630.5750.0815.0664.0
348.6550.0640.0464.8

表 2 10 例胃癌患者胃液 CEA 含量与胃组织肿瘤 CEA 含量的关系

病例号胃液 CEA 含量胃组织肿瘤 CEA 含量
(ng/ml)(cm2·ng/mg)
1432.86.6
2488.98.2
3600.015.7
4608.414.8
5640.216.2
6750.015.8
7815.018.2
81200.020.0
91380.020.0
101400.020.0

一、了解研究目的、资料搜集情况、数据意义、整理分析要解决什么问题

无论动物实验、临床观察或现场调查,应当目的明确,周密设计,精心操作,认真记录,务必使获得的原始资料完整、准确、真实、可靠。如果是替别人整理分析资料,在接受任务时,也首先必须把这些问题搞清楚,才能做出正确的、符合要求的分析。若发现某些资料不全或有可疑数值,应及时查明原因,加以改进,必要时补做实验或重新调查。本例研究目的已如上述。所观察的病人诊断都是明确的,标本采集,数据测定都是在实验室进行,仪器性能稳定,操作者技术熟练,资料是可靠的。统计分析的主要目的在于比较正常人、良性胃病患者、胃癌病人的胃液 CEA 含量有无显著差别,从而考虑该项指标能否作为胃癌早期诊断的一个辅助指标和随访的一个手段。此外,对胃液与胃组织肿瘤 CEA 含量作相关分析,找出它们间有无直线关系。

二、区分资料类型

这就是要分清所得到的资料哪部分是计量资料,哪部分是计数资料,尔后分别采用不同的统计分析方法来处理。本例表 1 左半部分是胃液中 CEA 含量,属计量资料;右半部分是以 95% 正常值范围单侧上限值 370(ng/ml)为界限,凡≥370(ng/ml)者为阳性,<370(ng/ml)者为阴性,然后清点每组阳性、阴性例数,这是计数资料。表 2 是对确诊的 10 例胃癌患者,既测定了胃液中 CEA 含量,又测定并计算出胃组织肿瘤 CEA 含量(根据前人经验用肿瘤面积与胃粘膜中 CEA 含量相乘,cm2·ng/ml)。显然,这是两个变量的问题。为方便叙述。我们按资料类型依次分析。

三、计量资料的处理

先要了解样本含量与频数分布情况。因为大样本或小样本、正态分布或偏态分布,统计方法的选择与统计指标的计算都有所不同。本例三组例数都在 30 左右,各组观察值分布比较均匀、对称,必要时可作正态性检验,故可按小样本、正态分布处理。

(一)计算平均数与标准差,以说明各观察值的集中趋势与变异情形。若观察值呈偏态分布,则应计算中位数;若系对数正态分布或等比资料,则计算几何均数。本例见表 3 第(3)第(4)栏。

(二)作为正常对照,用估计正常值范围的方法计算正常人组单侧上限 95% 正常值。宜用正态分布法;172.47+1.645×119.50=369.05,故以 370(ng/ml)作为单侧上限值。但由于例数较少,稳定性受到影响,因而还不能作为正常值范围来推广应用。

(三)计算标准误,以说明样本均数的散布情形,描述抽样误差的大小。必要时,用平均数与标准误结合,计算可信区间,以估计总体均数所在范围。见表 3 第(5)、第(6)栏。

表 3 各组平均数、标准差、标准误及 95% 可信区间

组别NXSSχ95% 可信区间
(1)(2)(3)(4)(5)(6)
正常人组32172.47119.5021.12129.38<μ<215.55
萎缩性胃炎组35378.52182.3330.82315.89<μ<441.15
胃癌组28649.25285.6653.98538.48<μ<760.02

(四)均数之间的比较:自身对照或配对设计资料(即成对计量资料)用个别比较 t 检验,两组均数比较用团体比较 t 检验,三组以上均数比较用方差分析。在方差分析前应作方差齐性检验,若方差不齐,则应用秩和检验,或经变量代换后再作方差分析。本例三组资料经代入式(8.5)与式(8.6)求得校正 χ 2值为 21.04,χ220.01,2,P<0.01,三组方差在 α =0.01 的水准上相差显著,故不宜用方差分析。所以我们用秩和检验,经代入式(10.8)得 H =50.321,H>χ20.01,2,P<0.01,在 α =0.01 的水准上相差显著。再用式(10.7)作两组之间的比较,结果正常人组与萎缩性胃炎组之间 u =4.475, 萎缩性胃炎组与胃癌组之间 u =4.150, 正常人组与胃癌组之间 u =6.253, 均在 α =0.01 的水准上相差显著,正常人组最低,萎缩性胃炎次之,胃癌组最高。

四、计数资料的处理

(一)计算有关的相对数,常用的是率与百分比。如本例,可求出三组的阳性率,见表 4。

表 4 三组胃液 CEA 阳性率(%)

组 别检查例数阳性例数阴性例数阳性率(%)
正常人组322306.25
萎缩性胃炎组35211460.00
胃 癌 组2824485.71
合 计95474849.47

(二)必要时,也可以计算率的标准误,以描述率的抽样误差大小;然后根据样本大小,分别用计算法或查表法求得率的可信区间,以估计总体率所在范围。

(三)几个率之间的比较,常用 χ 2检验。仅有两组的用四格表计算(当样本较大时也可用 u 检验),三组以上的用 2×K 表计算。本例共有三组,每组分为阳性、阴性两种类型,所以应用 2×K 表专用公式求 χ 2值。结果 χ 2=40.18,χ220.01,2,P<0.01,说明三组阳性率在 α =0.01 的水准上相差显著。再用四格表进行检验,结果正常人组与萎缩性胃炎组之间得 χ 2=19.10,χ220.01,1,P<0.01;正常人组与胃癌组之间得 χ 2=25.53,χ220.01,1,P<0.01。以上均在 α =0.01 的水准上相差显著,而萎缩性胃炎组与胃癌组之间得 χ 2=3.86,χ220.05,1,P<0.05,相差显著。我们在前面对三组胃液 CEA 含量用秩和检验作两两比较,结果都是在 α =0.01 的水准上相差显著,这说明计量资料获得信息多些。

五、两个变量间直线关系的分析

如果两变量的关系是相互的,分不清自变量与应变量,没有理由用一个变量去推算另一个变量,就只计算相关系数,不建立回归方程。如果两变量间存在直线关系,且需要从一个变量推算另一个变量时,可再建立回归方程,必要时还可以编制用一个变量估计另一个变量的对照表,本例 10 名胃癌患者胃液 CEA 含量与胃组织肿瘤 CEA 含量属于两个变量的关系问题,先计算相关系数,得 r =0.818,r>r0.01,8,P<0.01,在 α =0.01 的水准上相关显着。这说明肿瘤越大,胃组织病变越严重,胃液中 CEA 含量就越高,所以,若需要根据胃液中 CEA 含量推算病变严重程度,亦可计算回归方程。

根据以上统计分析,本例可得出如下结论:①胃癌病人的胃液 CEA 明显升高,提示可作为胃癌诊断的一个辅助指标,在早期胃癌诊断中可能有一定作用;其含量高低与肿瘤大小及胃组织 CEA 含量有关。②胃癌良性病变,胃液 CEA 含量也增高,提示该项指标可作为胃癌前疾病筛选和随访的一个手段。③良性病变与恶性病变胃液 CEA 含量重叠较多,所以应用该项指标作良性与恶性病变的鉴别诊断,尚待深入研究。

综合练习题

某院对城市入托与农村未入托儿童的智能及有关因素作了调查。现将部分资料列出如下。试进行整理,作出入托与未入托儿童智能水平及其影响因素的分析(包括显着性检验)、用图表列出分析结果,并写出文字说明,整理时可参阅所附整理表。

儿童智能发育的调查



年龄
(岁)
是否
入托
父 亲
文化程度
母 亲
文化程度
是否
母乳喂养
智能
分数
13.6高小高中90
25.2初中初中110
34.6初中高中113
42.2初中高中97
53.4中专初中120
62.2中专初中100
74.7高中中专117
84.7高中初中100
95.3高中初中97
105.0高中高中103
111.8高中高中93
122.0高中高中123
133.3高中初中83
141.8高中高中93
154.8大专初中100
164.5大专高中100
175.1大专高中100
184.2大专初中83
192.3大专初中107
202.5大专高中117
216.6大专大专100
223.0大专中专117
236.3大学大学113
244.0大学中专103
254.1大学大学93
265.0大学初中90
275.1大学中专107
281.6大学大专113
294.3大学中专90
304.4大学高中97
314.4大学大学110
322.2初中初中118
333.6初中高中73
344.8初中初中113
355.4初中初中90
365.7初中初中113
376.2初中 y 高中117
386.2初中初中110
393.2中专大学100
405.4中专初中97
412.7中专大专103
423.8高中高中110
433.1高中高中120
445.4高中高中93
455.6大专大专90
466.6大专高小63
471.9大学高中133
483.7大学高中93
493.1大学初中100
505.5大学中专93
513.7初中高中80
523.1初中初中93
535.2初中初中90
544.7初中初中107
554.7初中初中77
566.2初中高小90
576.2初中初中100
583.3高中初中100
591.1高中高中93
602.0大专大专100
615.4高小高小73
626.2高小初中50
635.5初中初中63
645.6初中初中60
655.7初中初中67
662.2初中高中90
672.3初中初中90
682.4初中初中113
692.2初中初中90
702.7初中高中110
713.0初中高中60
721.6初中高中110
736.7初中初中100
746.9初中高小43
753.1初中初中60
764.1初中初中90
775.3初中初中60
783.4初中高中73
793.6初中初中90
803.6初中初中87
814.8初中初中93
824.0初中初中93
834.5初中初中80
844.2初中高小77
854.3初中高中83
864.4初中初中60
874.4初中初中73
884.6初中高中70
895.1初中初中77
905.1初中高中63
915.1初中高中57
925.1初中初中68
935.4中专高中93
944.8高中高中67
955.4高中初中93
963.8高中初中63
973.2高中高中77
981.2高中初中127
991.9高中初中110
1002.2高中高小90

附表 1

智能分数与父亲文化程度的关系

智能分数初中及以下中专、高中大专、大学合计
90 以下
90—
110—
合 计

附表 2

智能分数与是否入托的关系

例 数智 能 分 数
平均数标准差标准误
入托儿童
未入托儿章

附表 3

智能分数与是否入托、母乳喂养的关系

母乳喂养非母乳喂养
例 数智能分数例 数智能分数
X±SEX±SE
入托儿童
未入托儿童
合 计

附表 1 x2 值表

《医学统计学》

n'P
0.9950.9900.9750.9500.9000.7500.5000.2500.1000.0500.0250.0100.005
10.020.100.451.322.713.845.026.637.88
20.010.020.020.100.210.581.392.774.615.997.389.2110.60
30.070.110.220.350.581.212.374.116.257.819.3511.3412.84
40.210.300.480.711.061.923.365.397.789.4911.1413.2814.86
50.410.550.831.151.612.674.356.639.2411.0712.8315.0916.75
60.680.871.241.642.203.455.357.8410.6412.5914.4516.8118.55
70.991.241.692.172.834.256.359.0412.0214.0716.0118.4820.28
81.341.652.182.733.405.077.3410.2213.3615.5117.5320.0921.96
91.732.092.703.334.175.908.3411.3914.6816.9219.0221.6723.59
102.162.563.253.944.876.749.3412.5515.9918.3120.4823.2125.19
112.603.053.824.575.587.5810.3413.7017.2819.6821.9224.7226.76
123.073.574.405.236.308.4411.3414.8518.5521.0323.3426.2228.30
133.574.115.015.897.049.3012.3415.9819.8122.3624.7427.6929.82
144.074.665.636.577.7910.1713.3417.1221.0623.6826.1229.1431.32
154.605.236.277.268.5511.0414.3418.2522.3125.0027.4930.5832.80
165.145.816.917.969.3111.9115.3419.3723.5426.3028.8532.0034.27
175.706.417.568.6710.0912.7916.3420.4924.7727.5930.1933.4135.72
186.267.018.239.3910.8613.6817.3421.6025.9928.8731.5334.8137.16
196.847.638.9110.1211.6514.5618.3422.7227.2030.1432.8536.1938.58
207.438.269.5910.8512.4415.4519.3423.8328.4131.4134.1737.5740.00
218.038.9010.2811.5913.2416.3420.3424.9329.6232.6735.4838.9341.40
228.649.5410.9812.3414.0417.2421.3426.0430.8133.9236.7840.2942.80
239.2610.2011.6913.0914.8518.1422.3427.1432.0135.1738.0841.6444.18
249.8910.8612.4013.8515.6619.0423.3428.2433.2036.4239.3642.9845.56
2510.5211.5213.1214.6116.4719.9424.3429.3434.3837.6540.6544.3146.93
2611.1612.2013.8415.3817.2920.8425.3430.4335.5638.8941.9245.6448.29
2711.8112.8814.5716.1518.1121.7526.3431.5336.7440.1143.1946.9649.64
2812.4613.5615.3116.9318.9422.6627.3432.6237.9241.3444.4648.2850.99
2913.1214.2616.0517.7119.7723.5728.3433.7139.0942.5645.7249.5952.34
3013.7914.9516.7918.4920.6024.4829.3434.8040.2643.7746.9850.8953.67
4020.7122.1624.4326.5129.0533.6639.3445.6251.8055.7659.3463.6966.77
5027.9929.7132.3634.7637.6942.9449.3356.3363.1767.5071.4276.1579.49
6035.5337.4840.4843.1946.4652.2959.3366.9874.4079.0883.3088.3891.95
7043.2845.4448.7651.7455.3361.7069.3377.5885.5390.5395.02100.42104.22
8051.1753.5457.1560.3964.2871.1479.3388.1396.58101.88106.63112.33116.32
9059.2061.7565.6569.1373.2980.6289.3398.64107.56113.14118.14124.12128.30
10067.3370.0674.2277.9382.3690.1399.33109.14118.50124.34129.56135.81140.17

注:自由度的符号本书统一用 ν,但若沿用 n’也不为错。

附表 2 标准正态曲线下的面积表

《医学统计学》

u123456789
0.0.0000.0040.0080.0120.0160.0199.0239.0276.0319.0359
0.1.0398.0438.0478.0517.0557.0596.0636.0675.0714.0754
0.2.0793.0832.0871.0910.0948.0987.1026.1064.1103.1141
0.3.1179.1217.1255.1293.1331.1368.1406.1443.1480.1517
0.4.1554.1591.1628.1664.1700.1736.1772.1808.1844.1879
0.5.1915.1950.1985.2019.2054.2088.2123.2157.2190.2224
0.6.2258.2291.2324.2357.2389.2422.2454.2486.2518.2549
0.7.2580.2612.2642.2673.2704.2734.2764.2794.2823.2852
0.8.2881.2910.2939.2967.2996.3023.3051.3078.3106.3133
0.9.3159.3186.3212.3238.3264.3289.3316.3340.3365.3389
1.0.3413.3438.3461.3485.3508.3531.3554.3577.3599.3621
1.1.3643.3665.3686.3708.3729.3749.3770.3790.3810.3830
1.2.3849.3869.3888.3907.3925.3944.3962.3980.3997.4015
1.3.4032.4049.4066.4082.4099.4115.4131.4147.4162.4177
1.4.4192.4207.4222.4236.4251.4265.4270.4292.4306.4319
1.5.4332.4345.4357.4370.4382.4394.4406.4418.4429.4441
1.6.4452.4463.4474.4484.4495.4505.4515.4525.4535.4545
1.7.4554.4564.4573.4582.4591.4599.4608.4616.4625.4633
1.8.4641.4649.4656.4664.4671.4678.4686.4693.4699.4706
1.9.4713.4719.4726.4732.4733.4744.4750.4756.4761.4767
2.0.4772.4778.4783.4788.4793.4798.4803.4808.4812.4817
2.1.4821.4826.4830.4834.4838.4842.4846.4850.4854.4857
2.2.4861.4864.4868.4871.4875.4878.4881.4884.4887.4890
2.3.4893.4896.4898.4901.4904.4906.4909.4911.4913.4916
2.4.4918.4920.4922.4925.4927.4929.4931.4932.4934.4936
2.5.4938.4940.4941.4943.4945.4946.4948.4949.4951.4952
2.6.4953.4955.4956.4957.4959.4960.4961.4962.4963.4964
2.7.4965.4966.4967.4968.4960.4970.4971.4972.4973.4974
2.8.4974.4975.4976.4977.4977.4978.4979.4979.4980.4981
2.9.4981.4982.4982.4983.4984.4984.4985.4985.4986.4986
3.0.4987.4987.4987.4988.4998.4989.4989.4989.4990.4990
3.1.4990.4991.4991.4991.4992.4992.4992.4992.4993.4993
3.2.4993.4993.4994.4994.4994.4994.4994.4995.4995.4995
3.3.4995.4995.4995.4996.4996.4996.4996.4996.4996.4997
3.4.4997.4997.4997.4997.4997.4997.4907.4997.4997.4998
3.5.4998.4998.4998.4998.4998.4998.4998.4998.4998.4998
3.6.4998.4998.4999.4999.4999.4999.4999.4999.4999.4999
3.7.4999.4999.4999.4999.4999.4999.4999.4999.4999.4999
3.8.4999.4999.4999.4999.4999.4999.4999.4999.4999.4999
3.9.5000.5000.5000.5000.5000.5000.5000.5000.5000.5000

附表 3 t 值表

《医学统计学》

n’P(2):
P(1):
0.50
0.25
0.20
0.10
0.10
0.05
0.05
0.025
0.02
0.01
0.01
0.005
0.005
0.0025
0.002
0.001
0.001
0.0005
11.0003.0786.31412.70631.82163.657127.321318.309636.619
20.8161.8862.9204.3036.9659.92514.08922.32731.599
30.7651.6382.3533.1824.5415.8417.45310.21512.924
40.7411.5332.1322.7763.7474.6045.5987.1738.610
50.7271.4762.0152.5713.3654.0324.7735.8936.869
60.7181.4401.9432.4473.1433.7074.3175.2085.959
70.7111.4151.8952.3652.9983.4994.0294.7855.408
80.7061.3971.8602.3062.8963.3553.8334.5015.041
90.7031.3831.8332.2622.8213.2503.6904.2974.781
100.7001.3721.8122.2282.7643.1693.5814.1444.587
110.6971.3631.7962.2012.7183.1063.4974.0254.437
120.6951.3561.7822.1792.6813.0553.4283.9304.318
130.6941.3501.7712.1602.6503.0123.3723.8524.221
140.6921.3451.7612.1452.6242.9773.3263.7874.140
150.6911.3411.7532.1312.6022.9473.2863.7334.073
160.6901.3371.7462.1202.5832.9213.2523.6864.015
170.6891.3331.7402.1102.5672.8983.2223.6463.965
180.6881.3301.7342.1012.5522.8783.1973.6103.922
190.6881.3281.7292.0932.5392.8613.1743.5793.883
200.6871.3251.7252.0862.5282.8453.1533.5523.850
210.6861.3231.7212.0802.5182.8313.1353.5273.819
220.6861.3211.7172.0742.5082.8193.1193.5053.792
230.6851.3191.7142.0692.5002.8073.1043.4853.768
240.6851.3181.7112.0642.4922.7973.0913.4673.745
250.6841.3161.7082.0602.4852.7873.0783.4503.725
260.6841.3151.7062.0562.4792.7793.0673.4353.707
270.6841.3141.7032.0522.4732.7713.0573.4213.690
280.6831.3131.7012.0482.4672.7633.0473.4083.674
290.6831.3111.6992.0452.4622.7563.0383.3963.659
300.6831.3101.6972.0422.4572.7503.0303.3853.646
310.6821.3091.6962.0402.4532.7443.0223.3753.633
320.6821.3091.6942.0372.4492.7383.0153.3653.622
330.6821.3081.6922.0352.4452.7333.0083.3563.611
340.6821.3071.0912.0322.4412.7283.0023.3483.601
350.6821.3061.6902.0302.4382.7242.9963.3403.591
360.6811.3061.6882.0282.4342.7192.9903.3333.582
370.6811.3051.6872.0262.4312.7152.9853.3263.574
380.6811.3041.6862.0242.4292.7122.9803.3193.566
390.6811.3041.6852.0232.4262.7082.9763.3133.558
400.6811.3031.6842.0212.4232.7042.9713.3073.551
500.6791.2991.6762.0092.4032.6782.9373.2613.496
600.6791.2961.6712.0002.3902.6602.9153.2323.460
700.6781.2941.6671.9942.3812.6482.8993.2113.436
800.6781.2921.6641.9902.3742.6392.8873.1953.416
900.6771.2911.6621.9872.3682.6322.8783.1833.402
1000.6771.2901.6601.9842.3642.6262.8713.1743.390
2000.6761.2861.6531.9722.3452.6012.8393.1313.340
5000.6751.2831.6481.9652.3342.5862.8203.1073.310
10000.6751.2821.6461.9622.3302.5812.8133.0983.300
0.67451.28161.64491.96002.32632.57582.80703.09023.2905

注:表上右上角图中的阴影部分表示概率 P,P(2)是双侧的概率,P(1)是单侧的概率,n’是自由度。

附表 4 百分比的 95% 与 99% 可信区间

观察数 f 95% 可信区间99% 可信区间
样本大小,n样本大小,n
1015203010152030
3122172041302316
14532251754403222
235624013112216514913928
3765448338227424256245132
41274855644431881563451336
5198112629496351387869656440
626881668125483919921274861644
73593217315591043269616791166848
844972779196412463599218415701052
95510032842368155046100268818741255
106910038882773175359100319222781458
11459232772056379526821662
12529636812360449830851865
13609841852563519934892168
1468100468828666010039922471
1578100519131697010044942674
165694347249962976
176297377555983279
186999407761993582
19751004480681003884
20831004783771004286
2150854588
2254884890
2357905292
2461925694
2565946096
2669966497
2773986899
28789972100
298310078100
308810084100

注:表中观察数 f 为调查例中查 n 到实验发生某现象的个数。

附表 5 W 检验 ain 系数表

in
2345678910
10.70710.70710.68720.66460.64310.62330.60520.58880.5739
2-0.00000.16770.24130.28060.30310.31640.32440.3291
3---0.00000.08750.14010.17430.19760.2141
4-----0.00000.05610.09470.1224
5-------0.00000.0399
n
11121314151617181920
10.56010.54750.53590.52510.51500.50560.49680.48860.48080.4734
20.33150.33250.33250.33180.33060.32900.32730.32530.32320.3211
30.22600.23470.24120.24600.24950.25210.25400.25530.25610.2565
40.14290.15860.17070.18020.18780.19390.19880.20270.20590.2085
50.06950.09220.10990.12400.13530.14470.15240.15870.16410.1686
60.00000.03030.05390.07270.08800.10050.11090.11970.12710.1334
7--0.00000.02400.04330.05930.07250.08370.09320.1013
8----0.00000.01960.03590.04960.06120.0711
9------0.00000.01630.03030.0422
10--------0.00000.0140
in
21222324252627282930
10.46430.45900.45420.44930.44500.44070.43660.43280.42910.4254
20.31580.31560.31260.30980.30690.30430.30180.29920.29680.2944
30.25780.25710.25630.25540.25430.25330.25220.25100.24990.2487
40.21190.21310.21390.21450.21480.21510.21520.21510.21500.2148
50.17360.17640.17870.18070.18220.18360.18480.18570.18640.1870
60.13990.14430.14800.15120.15390.15630.15840.16010.16160.1630
70.10920.11500.12010.12450.12830.13160.13460.13720.13950.1415
80.08040.08780.09410.09970.10460.10890.11280.11620.11920.1219
90.05300.06180.06960.07640.08230.08760.09230.09650.10020.1036
100.02630.03680.04590.05390.06100.06720.07280.07780.08220.0862
110.00000.01220.02280.03210.04030.04760.05400.05980.06500.0697
12--0.00000.01070.02000.02840.03580.04240.04830.0537
13----0.00000.00940.01780.02530.03200.0381
14------0.00000.00840.01590.0227
15--------0.00000.0076
in
31323334353637383940
10.42200.41880.41560.41270.40960.40680.40400.40150.39890.3964
20.29210.28290.28760.28540.28340.28130.27940.27740.27550.2737
30.24750.24630.24510.24390.24270.24150.24030.23910.23800.2368
40.21450.21410.21370.21320.21270.21210.21160.21100.21040.2098
50.18740.18780.18800.18820.18830.18830.18830.18810.18800.1878
60.16410.16510.16600.16670.16730.16780.16830.16860.16890.1691
70.14330.14490.14630.14750.14870.14960.15050.15130.15200.1526
80.12430.12650.12840.13010.13170.13310.13440.13560.13660.1376
90.10660.10930.11180.11400.11600.11790.11960.12110.12250.1237
100.08990.09310.09610.09880.10130.10360.10560.10750.10920.1108
110.07390.07770.08120.08440.08730.09000.09240.09470.09670.0986
120.05850.06290.06690.07060.07390.07700.07980.08240.08480.0870
130.04350.04850.05300.05720.06100.06450.06770.07060.07330.0759
140.02890.03440.03950.04410.04840.05230.05590.05920.06220.0651
150.01440.02060.02620.03140.03610.04040.04440.04810.05150.0546
160.00000.00680.01310.01870.02390.02870.03310.03720.04090.0444
17--0.00000.00620.01190.01720.02200.02640.03050.0343
18----0.00000.00570.01100.01580.02030.0244
19------0.00000.00530.01010.0146
20--------0.00000.0049
n
41424344454647484950
10.39400.39170.38940.38720.38500.38300.38080.37890.37700.3751
20.27190.27010.26840.26670.26510.26350.26200.26040.25890.2574
30.23570.23450.23340.23230.23130.23020.22910.22810.22710.2260
40.20910.20850.20780.20720.20650.20580.20520.20450.20380.2032
50.18760.18740.18710.18680.18650.18620.18590.18550.18510.1847
60.16930.16940.16950.16950.16950.16950.16950.16930.16920.1691
70.15310.15350.15390.15420.15450.15480.15500.15510.15530.1554
80.13840.13920.13980.14050.14100.14150.14200.14230.14270.1430
90.12490.12590.12690.12780.12860.12930.13000.13060.13120.1317
100.11230.11360.11490.11600.11700.11800.11890.11970.12050.1212
110.10040.10200.10350.10490.10620.10730.10850.10950.11050.1113
120.08910.09090.09270.09430.09590.09720.09860.09980.10100.1020
130.07820.08040.08240.08420.08600.08760.08920.09060.09190.0932
140.06770.07010.07240.07450.07650.07830.08010.08170.08320.0846
150.05750.06020.06280.06510.06730.06940.07130.07310.07480.0764
160.04760.05060.05340.05600.05840.06070.06280.06480.06670.0685
170.03790.04110.04420.04710.04970.05220.05460.05680.05880.0608
180.02830.03180.03520.03830.04120.04390.04650.04890.05110.0532
190.01880.02270.02630.02960.03280.03570.03850.04110.04360.0459
200.00940.01360.01750.02110.02450.02770.03070.03350.03610.0386
210.00000.00450.00870.01260.01630.01970.02290.02590.02880.0314
22--0.00000.00420.00810.01180.01530.01850.02150.0244
23----0.00000.00390.00760.01110.01430.0174
24------0.00000.00370.00710.0104
25--------0.00000.0035

附表 6 W 检验界值表

n34567891011121314
α=10.0%0.7870.7920.8060.8260.8380.8510.8590.8690.8760.8830.8890.895
α=5.0%0.7670.7480.7620.7880.8030.8180.8290.8420.8500.8590.8660.874
α=1.0%0.7530.6870.6860.7130.7300.7490.7640.7810.7920.8050.8140.825
n151617181920212223242526
α=10.0%0.9010.9060.9100.9140.9170.9200.9230.9260.9280.9300.9310.933
α=5.0%0.8810.8870.8920.8970.9010.9050.9080.9110.9140.9160.9180.920
α=1.0%0.8350.8440.8510.8580.8630.8680.8730.8780.8810.8840.8880.891
n272829303132333435363738
α=1.00%0.9350.9360.9370.9300.9400.9410.9420.9430.9440.9450.9460.947
α=5.0%0.9230.9240.9260.9270.9290.9300.9310.9330.9340.9350.9360.938
α=1.0%0.8940.8960.8980.9000.9020.9040.9060.9080.9100.9120.9140.916
n394041424344454647484950
α=10.0%0.9480.9490.9500.9510.9510.9520.9530.9530.9540.9540.9550.955
α=5.0%0.9390.9400.9410.9420.9430.9440.9450.9450.9460.9470.9470.947
α=1.0%0.9170.9190.9200.9220.9230.9240.9260.9270.9280.9290.9290.930

附表 7 F 值表(方差齐性检验用)

P=0.05(双侧)

rˊ(较大均方的自由度)n2ˊ
2345678910121520306000
17993648999229379489579639699779859931001101010181
239.039.239.239.339.339.339.439.439.439.439.439.439.539.539.52
310.015.415.114.914.714.614.514.514.414.314.214.214.114.013.93
410.69.989.609.369.209.078.988.908.848.758.668.568.468.368.264
58.437.767.397.166.986.856.766.686.626.526.436.336.236.126.015
67.266.605.235.995.825.695.605.525.465.375.275.175.064.964.856
76.545.895.525.285.124.994.904.824.764.674.574.474.364.254.147
86.065.425.054.824.654.534.434.364.294.204.104.003.893.783.678
95.715.084.724.484.324.204.104.033.963.873.773.673.563.453.339
105.464.834.474.244.073.953.853.783.723.623.523.423.313.203.0810
115.264.634.274.043.883.763.663.593.533.433.333.233.123.002.8811
125.104.474.123.893.733.613.513.443.373.283.183.072.962.852.7212
134.964.354.003.773.603.483.393.313.253.153.052.952.842.722.5913
144.864.243.893.663.503.383.283.213.153.052.952.842.732.612.4914
154.764.153.803.583.413.293.203.123.062.962.862.762.642.522.3915
164.694.083.733.503.343.223.123.052.992.892.792.682.572.452.3216
174.624.013.663.443.283.163.062.982.922.822.722.622.502.382.2517
184.563.953.613.383.223.103.002.932.872.772.672.562.442.322.1918
194.513.903.563.333.173.052.962.882.822.722.622.512.392.272.1319
204.463.863.513.293.133.012.912.842.772.682.572.462.352.222.0820
214.423.823.473.253.092.972.872.802.732.642.532.422.312.182.0421
224.383.733.443.213.052.932.842.762.702.602.502.392.272.142.0022
234.353.753.413.183.022.902.812.732.672.572.472.362.242.111.9723
244.323.723.383.152.992.872.782.702.642.542.442.332.212.081.9324
254.293.693.353.132.972.852.752.682.612.512.412.302.182.051.9125
264.263.673.333.102.942.822.732.652.592.492.392.282.162.031.8826
274.243.653.313.082.922.802.712.632.572.472.362.252.132.001.8527
284.223.633.293.062.902.782.692.612.552.452.342.232.111.981.8328
294.203.613.273.042.882.762.672.592.532.432.322.212.091.961.8129
304.183.593.253.032.872.752.652.572.512.412.312.192.071.941.7930
314.163.573.233.012.852.732.632.562.492.402.292.182.061.921.7731
324.153.563.222.992.842.712.622.542.482.382.272.162.041.901.7532
334.133.543.202.982.822.702.612.532.472.372.262.152.031.891.7333
344.123.533.192.972.812.692.592.522.452.352.252.132.011.871.7234
354.113.523.182.962.802.682.582.502.442.342.232.122.001.861.7035
364.093.503.172.942.782.662.572.492.432.332.222.111.991.851.6936
374.083.493.162.932.772.652.562.482.422.322.212.101.971.841.6737
384.073.483.142.922.762.642.552.472.412.312.202.091.961.821.6638
394.063.473.132.912.752.632.542.462.402.302.192.081.951.811.6539
404.053.463.132.902.742.622.532.452.392.292.182.071.941.801.6440
424.033.453.112.892.732.612.512.432.372.272.162.051.921.781.6142
444.023.433.092.872.712.592.502.422.352.252.152.031.911.771.6044
464.003.413.082.862.702.582.482.402.342.242.132.021.891.751.5846
483.993.403.072.842.682.562.472.392.332.232.122.011.881.731.5648
503.973.393.052.832.672.562.462.382.322.222.111.991.871.721.5450
603.923.343.012.792.632.512.412.332.272.172.061.941.811.671.4860
803.863.282.952.732.572.452.352.282.212.112.001.881.751.601.4080
1203.803.232.892.672.512.392.302.222.162.051.941.821.691.531.31120
2403.753.172.842.622.462.342.242.172.102.001.891.771.631.461.20240
3.693.122.792.572.412.292.192.112.051.941.831.711.571.391.00

附表8(1)F 值表(方差分析用)

《医学统计学》

P=0.05

r2r1(较大均方的自由度)r2
123456789101214161820
11612002162252302342372392412422442452462472481
218.519.019.219.219.319.319.419.419.419.419.419.419.419.419.42
310.19.559.289.129.018.948.898.858.818.798.748.718.698.678.663
47.716.946.596.396.266.166.096.046.005.965.915.875.845.825.804
56.615.795.415.195.054.954.884.824.774.744.684.644.604.584.565
65.995.144.764.534.394.284.214.154.104.064.003.963.923.903.876
75.594.744.354.123.973.873.793.733.683.643.573.533.493.473.447
85.324.464.073.843.693.583.503.443.393.353.283.243.203.173.158
95.124.263.863.633.483.373.293.233.183.143.073.032.992.962.949
104.964.103.713.483.333.223.143.073.022.982.912.862.832.802.7710
114.843.983.593.363.203.093.012.952.902.852.792.742.702.672.6511
124.753.893.493.263.113.002.912.852.802.752.692.642.602.572.5412
134.673.813.413.183.032.922.832.772.712.672.602.552.512.482.4613
144.603.743.343.112.962.852.762.702.652.602.532.482.442.412.3914
154.543.683.293.062.902.792.712.642.592.542.482.422.382.352.3315
164.493.633.243.012.852.742.662.592.542.492.422.372.332.302.2816
174.453.593.202.962.812.702.612.552.492.452.382.332.292.262.2317
184.413.553.162.932.772.662.582.512.462.412.342.292.252.222.1918
194.383.523.132.902.742.632.542.482.422.382.312.262.212.182.1619
204.353.493.102.872.712.602.512.452.392.352.282.222.182.152.1220
214.323.473.072.842.682.572.492.422.372.322.252.202.162.122.1021
224.303.443.052.822.662.552.462.402.342.302.232.172.132.102.0722
234.283.423.032.802.642.532.442.372.322.272.202.152.112.072.0523
244.263.403.012.782.622.512.422.362.302.252.182.132.092.052.0324
254.243.392.992.762.602.492.402.342.282.242.162.112.072.042.0125
264.233.372.982.742.592.472.392.322.272.222.152.092.052.021.9926
274.213.352.962.732.572.462.372.312.252.202.132.082.042.001.9727
284.203.342.952.712.562.452.362.292.242.192.122.062.021.991.9628
294.183.332.932.702.552.432.352.282.222.182.102.052.011.971.9429
304.173.322.922.692.532.422.332.272.212.162.092.041.991.961.9330
324.153.292.902.672.512.402.312.242.192.142.072.011.971.941.9132
344.133.282.882.652.492.382.292.232.172.122.051.991.951.921.8934
364.113.262.872.632.482.362.282.212.152.112.031.981.931.901.8736
384.103.242.852.622.462.352.262.192.142.092.021.961.921.881.8538
404.083.232.842.612.452.342.252.182.122.082.001.951.901.871.8440
424.073.222.832.592.442.322.242.172.112.061.991.931.891.861.8342
444.063.212.822.582.432.312.232.162.102.051.981.921.881.841.8144
464.053.202.812.572.422.302.222.152.092.041.971.911.871.831.8046
484.043.192.802.572.412.292.212.142.082.031.961.901.861.821.7948
504.033.182.792.562.402.292.202.132.072.031.951.891.851.811.7850
604.003.152.762.532.372.252.172.102.041.991.921.861.821.781.7560
803.963.112.722.492.332.212.132.062.001.951.881.821.771.731.7080
1003.943.092.702.462.312.192.102.031.971.931.851.791.751.711.68100
1253.923.072.682.442.292.172.082.011.961.911.831.771.721.691.65125
1503.903.062.662.432.272.162.072.001.941.891.821.761.711.671.64150
2003.893.042.652.422.262.142.061.981.931.881.801.741.691.661.62200
3003.873.032.632.402.242.132.041.971.911.861.781.721.681.641.61300
5003.863.012.622.392.232.122.031.961.901.851.771.711.661.621.59500
10003.853.002.612.382.222.112.021.951.891.841.761.701.651.611.581000
3.843.002.602.372.212.102.011.941.881.831.751.691.641.601.57

附表8(2) F 值表(方差分析用)

P=0.05

n'2n'1(较大均方的自由度)n'2
222426283035404550608010020050000
12492492492502502512512512522522522532542542541
219.519.519.519.519.519.519.519.519.519.519.519.519.519.519.52
38.658.648.638.628.628.608.598.598.588.578.568.558.548.538.533
45.795.775.765.755.755.735.725.715.707.695.675.665.655.645.634
54.545.534.524.504.504.484.464.454.444.434.414.414.394.374.375
63.863.843.833.823.813.793.773.763.753.743.723.713.693.683.676
73.433.413.403.393.383.363.343.333.323.303.293.273.253.243.237
83.133.123.103.093.083.063.043.033.023.012.992.972.952.942.938
92.922.902.892.872.832.842.832.812.802.792.772.762.732.722.719
102.752.742.722.712.702.682.662.652.642.622.602.592.562.550.5410
112.632.612.592.582.572.552.532.522.512.492.472.462.432.422.4011
122.522.512.492.482.472.442.432.412.402.382.362.352.322.312.3012
132.442.422.412.392.382.362.342.332.312.302.272.262.232.222.2113
142.372.352.332.322.312.282.272.252.242.222.202.192.162.142.1314
152.312.292.272.262.252.222.202.192.182.162.142.122.102.082.0715
162.252.242.222.212.192.172.152.142.122.112.082.072.042.022.0116
172.212.192.172.162.152.122.102.092.082.062.032.021.991.971.9617
182.172.152.132.122.112.082.062.052.042.021.991.981.951.931.9218
192.132.112.102.082.072.052.032.012.001.981.961.941.911.891.8819
202.102.082.072.052.042.011.991.981.971.951.921.911.881.861.8420
212.072.052.042.022.011.981.961.951.941.921.891.881.841.821.8121
222.052.032.012.001.981.961.941.921.911.891.861.851.821.801.7822
232.022.001.991.971.961.931.911.901.881.861.841.821.791.771.7623
242.001.981.971.951.941.911.891.881.861.841.821.801.771.751.7334
251.981.961.951.931.921.891.871.861.841.821.801.781.751.731.7125
261.971.951.931.911.901.871.851.841.821.801.781.761.731.711.6926
271.951.931.911.901.881.861.841.821.811.791.761.741.711.691.6727
281.931.911.901.881.871.841.821.801.791.771.741.731.691.671.6528
291.921.901.881.871.851.831.811.791.771.751.731.711.671.651.6429
301.911.891.871.851.841.811.791.771.761.741.711.701.661.641.6230
321.881.861.851.831.821.791.771.751.741.711.691.671.631.611.5932
341.861.841.821.801.801.771.751.731.711.691.661.651.611.591.5734
361.851.821.811.791.781.751.731.711.691.671.641.621.591.561.5536
381.831.811.791.771.761.731.711.691.681.651.621.611.571.541.5338
401.811.791.771.761.741.721.691.671.661.641.611.591.551.531.5140
421.801.781.761.741.731.701.681.661.651.621.591.571.531.511.4942
441.791.771.751.731.721.691.671.651.631.611.581.561.521.491.4844
461.781.761.741.721.711.681.651.641.621.601.571.551.511.481.4646
481.771.751.731.711.701.671.641.621.611.591.561.541.491.471.4548
501.761.741.721.701.691.661.631.611.601.581.541.521.481.461.4450
601.721.701.681.661.651.621.591.571.561.531.501.481.441.411.3960
801.681.651.631.621.601.571.541.521.511.481.451.431.381.351.3280
1001.651.631.611.591.571.541.521.491.481.451.411.391.341.311.28100
1251.631.601.581.571.551.521.491.471.451.421.391.361.311.271.25125
1501.611.591.571.551.531.501.481.451.441.411.371.341.291.251.22150
2001.601.571.551.531.521.481.461.431.411.391.351.321.261.221.19200
3001.581.551.531.511.501.461.431.411.391.361.321.301.231.191.15300
5001.561.541.521.501.481.451.421.401.381.341.301.281.211.161.11500
10001.551.531.511.491.471.441.411.381.361.331.291.261.191.131.081000
1.541.521.501.481.461.421.391.371.351.321.271.241.171.111.00

附表8(3) F 值表(方差分析用)

《医学统计学》

P=0.01

21(较大均方的自由度)2
123456789101214161820
14052500054035625575458595928598160226056610661426169619062091
298.599.099.299.299.399.399.499.499.499.499.499.499.499.499.42
334.130.829.528.728.227.927.727.527.327.227.126.926.826.826.73
421.218.016.716.015.515.215.014.814.714.514.414.214.214.114.04
516.313.312.111.411.010.710.510.310.210.19.899.779.689.619.555
613.710.99.789.158.758.478.268.107.987.877.727.607.527.457.406
712.29.558.457.857.467.196.996.846.726.626.476.366.276.216.167
811.38.657.597.016.636.376.186.035.915.815.675.565.485.415.368
910.68.026.996.426.065.805.615.475.355.265.115.004.924.864.819
1010.07.566.555.995.645.395.205.064.944.854.714.604.524.464.4110
119.657.216.225.675.325.074.894.744.634.544.404.294.214.154.1011
129.336.935.955.415.064.824.644.504.394.304.164.053.973.913.8612
139.076.705.745.214.864.624.444.304.194.102.963.863.733.713.6613
148.866.515.565.044.704.464.234.144.033.943.803.703.623.563.5114
158.686.365.424.894.564.324.144.003.893.803.673.563.493.423.3715
168.536.235.294.774.444.204.033.893.783.693.553.453.373.313.2616
178.406.115.184.674.344.103.933.793.683.593.463.353.273.213.1617
188.296.015.394.584.254.013.843.713.603.513.373.273.193.133.6818
198.185.935.014.504.173.943.773.633.523.433.303.103.123.053.0019
208.105.854.944.434.103.373.703.563.463.373.233.133.052.992.9420
218.025.784.874.374.043.813.643.513.403.313.173.072.992.932.8821
227.955.724.824.313.993.763.593.453.353.263.123.022.942.882.8322
237.885.664.764.263.943.713.543.413.303.213.072.972.892.832.7823
247.825.614.724.223.903.673.503.363.263.173.032.932.852.792.7424
257.775.574.684.183.863.633.463.323.223.132.992.892.812.752.7025
267.725.534.644.143.823.593.423.293.183.092.962.862.782.722.6626
277.685.494.604.113.783.563.393.263.153.062.932.822.752.682.6327
287.645.454.574.073.753.533.363.233.123.032.902.792.722.652.6028
297.605.424.544.043.733.503.333.203.093.002.872.772.692.622.5729
307.565.394.514.023.703.473.303.173.072.982.842.742.662.602.5530
327.505.344.463.073.653.433.263.133.022.932.802.702.622.552.5032
347.445.294.423.933.613.393.223.092.982.892.762.662.582.512.4634
367.405.254.383.893.573.353.183.052.952.862.722.622.542.482.4336
387.355.214.343.863.543.323.153.022.922.832.692.592.512.452.4038
407.315.184.313.833.513.293.122.992.892.802.662.562.482.422.3740
427.285.154.293.803.493.273.102.972.862.782.642.542.462.402.3442
447.255.124.263.783.473.243.082.952.842.752.622.522.442.372.3244
467.225.104.243.763.443.223.062.932.822.732.602.502.422.352.3046
487.205.084.223.743.433.203.042.912.802.722.582.482.402.332.2848
507.175.064.203.723.413.193.022.892.792.702.562.462.382.322.2750
607.084.984.133.653.343.122.952.822.722.632.592.392.312.252.2060
806.964.884.043.563.263.042.872.742.642.552.422.312.232.172.1280
1006.904.823.983.513.212.992.822.692.592.502.372.262.192.122.07100
1256.844.783.943.473.172.952.792.662.552.472.332.232.152.082.03125
1506.814.753.923.453.142.922.762.632.532.442.312.202.122.062.00150
2006.764.713.883.413.112.892.732.602.502.412.272.172.092.021.97200
3006.724.683.853.383.082.862.702.572.472.382.242.142.061.991.94300
5006.694.653.823.363.052.842.682.552.442.362.222.122.041.971.92500
10006.664.633.803.343.042.822.662.532.432.342.202.102.021.951.901000
6.634.613.783.323.022.802.642.512.412.322.182.082.001.931.88

附表8(4)F 值表(方差分析用)

P=0.01

2n'2(较大均方的自由度)2
2224262830354045506080100200500
16220623462406250625862806286630063026310633463306352636163661
299.599.599.599.599.599.599.599.599.599.599.599.599.599.599.52
326.626.626.626.526.526.526.426.426.426.326.326.226.226.126.13
414.013.913.913.913.813.813.713.713.713.713.613.613.513.513.54
59.519.479.439.409.389.339.299.269.249.209.169.139.089.049.025
67.357.317.287.257.237.187.147.117.097.067.016.996.936.906.886
76.116.076.046.025.995.945.915.885.865.825.785.755.705.675.657
85.325.285.255.225.205.155.125.005.075.034.994.964.914.884.868
94.774.734.704.674.654.604.574.544.524.484.444.424.364.334.319
104.364.334.304.274.254.204.174.144.124.084.044.013.963.933.9110
114.064.025.993.963.943.893.863.833.813.783.733.713.663.623.6011
123.823.783.753.723.703.653.623.593.573.543.493.473.413.383.3612
133.623.593.563.533.513.463.433.403.383.343.303.273.223.193.1713
143.463.432.403.373.353.303.273.243.223.183.143.113.063.033.0014
153.333.293.263.243.213.173.133.103.083.053.002.982.922.892.8715
163.223.183.153.123.103.053.022.992.972.932.892.862.812.782.7516
173.123.083.053.033.002.962.922.892.872.832.792.762.712.682.6517
183.033.002.972.942.922.872.842.812.782.752.702.682.622.592.5718
192.962.922.892.872.842.802.762.732.712.672.632.602.552.512.4919
202.902.862.832.802.782.732.692.672.642.612.562.542.482.442.4220
212.842.802.772.742.722.672.642.612.582.552.502.482.422.382.3621
222.782.752.722.692.672.622.582.552.532.502.452.422.362.332.3122
232.742.702.672.642.622.572.542.512.482.452.402.372.322.282.2623
242.702.662.632.602.582.532.492.462.442.402.362.332.272.242.2124
252.662.622.592.562.542.492.452.422.402.362.322.292.232.192.1725
262.622.582.552.532.502.452.422.392.362.332.282.252.192.162.1326
272.592.552.522.492.472.422.382.352.332.292.252.222.162.122.1027
282.562.522.492.462.442.392.352.322.302.262.222.192.132.092.0628
292.532.492.462.442.412.362.332.302.272.232.192.162.102.062.0329
302.512.472.442.412.392.342.302.272.252.212.162.132.072.032.0130
322.462.422.392.362.342.292.252.222.202.162.112.082.021.981.9632
342.422.382.352.322.302.252.212.182.162.122.072.041.981.941.9134
362.382.352.322.292.262.212.172.142.122.082.032.001.941.901.8736
382.352.322.282.262.232.182.142.112.092.052.001.971.901.861.8438
402.332.292.262.232.202.152.112.082.062.021.971.941.871.831.8040
422.302.262.232.202.182.132.092.062.031.991.941.911.851.801.7842
442.282.242.212.182.152.102.062.032.011.971.921.891.821.781.7544
462.262.222.192.162.132.082.042.011.991.951.901.861.801.751.7346
482.242.202.172.142.122.062.021.991.971.931.881.841.781.731.7048
502.222.182.152.122.102.052.011.971.951.911.861.821.761.711.6850
602.152.122.082.052.031.981.941.901.881.841.781.751.681.631.6060
802.072.032.001.971.941.891.851.811.791.751.691.661.581.531.4980
1002.021.981.941.921.891.841.801.761.731.691.631.601.521.471.43100
1251.981.941.911.881.851.801.761.721.691.651.591.551.471.411.37125
1501.961.921.881.851.831.771.731.691.661.621.561.521.431.381.33150
2001.931.891.851.821.791.741.691.661.631.581.521.481.391.331.28200
3001.891.851.821.791.761.711.661.621.591.551.481.441.351.281.22300
5001.871.831.791.761.741.681.631.601.561.521.451.411.311.231.16500
10001.851.811.771.741.721.661.611.571.541.501.431.381.281.191.111000
1.831.791.761.721.701.641.591.551.521.471.401.361.251.151.00

附表 9 q 值表

《医学统计学》

上行:P=0.05

下行:P=0.01

n'a(组数)
2345678910
53.644.605.225.676.036.336.586.806.99
5.706.987.808.428.919.329.679.9710.24
63.464.344.905.305.635.906.126.326.49
5.246.337.037.567.978.328.618.879.10
73.344.164.635.065.365.615.826.006.16
4.955.926.547.017.377.687.948.178.37
83.264.044.534.895.175.405.605.775.92
4.755.646.206.626.967.247.477.687.86
93.203.954.414.765.025.245.435.595.74
4.605.435.966.356.666.917.137.337.49
103.153.884.334.654.915.125.305.465.60
4.485.275.776.146.436.676.877.057.21
123.083.774.204.514.754.955.125.275.39
4.325.055.505.846.106.326.516.676.81
143.033.704.114.414.644.834.995.135.25
4.214.895.325.635.886.086.266.416.54
163.003.654.054.334.564.744.905.035.15
4.134.795.195.495.725.926.086.226.35
182.973.614.004.284.494.674.824.965.07
4.074.705.095.385.605.795.946.086.20
202.953.583.964.234.454.624.774.905.01
4.024.645.025.295.515.695.845.976.09
302.893.493.854.104.304.464.604.724.82
3.894.454.805.055.245.405.545.655.76
402.863.443.794.044.234.394.524.634.73
3.824.374.704.935.115.265.395.505.60
602.833.403.743.984.164.314.444.554.65
3.764.284.594.824.995.135.255.365.45
1202.803.363.683.924.104.244.364.474.56
3.704.204.504.714.875.015.125.215.30
2.773.313.633.864.034.174.294.394.47
3.644.124.404.604.764.884.995.085.16

附表 10 正交拉丁方表

3×34×4
123123123412341234
231312214334124321
312231341243212143
432121433412
5×5
12345123451234512345
23451345124512351234
34512512342345145123
45123234515123434512
51234451233451223451
7×7
123456712345671234567
234567134567124567123
345671256712347123456
456712371234563456712
567123423456716712345
671234545671232345671
712345667123455671234
123456712345671234567
567123467123457123456
234567145671236712345
671234523456715671234
345671271234564567123
712345656712343456712
456712334567122345671

附表 11(1)相关系数界值表

P(2):0.500.200.100.050.020.010.0050.0020.001
P(1):0.250.100.050.0250.010.0050.00250.0010.0005
10.7070.9510.9880.9971.0001.0001.0001.0001.000
20.5000.8000.9000.9500.9800.9900.9950.9980.999
30.4040.6870.8050.8780.9340.9590.9740.9860.991
40.3470.6030.7290.8110.8820.9170.9420.9630.974
50.3090.5510.6690.7550.8330.8750.9060.9350.951
60.2810.5070.6210.7070.7890.8340.8700.9050.925
70.2600.4720.5820.6660.7500.7980.8360.8750.898
80.2420.4430.5490.6320.7150.7650.8050.8470.872
90.2280.4190.5210.6020.6850.7350.7760.8200.847
100.2160.3980.4970.5760.6580.7080.7500.7950.823
110.2060.3800.4760.5530.6340.6840.7260.7720.801
120.1970.3650.4570.5320.6120.6610.7030.7500.780
130.1890.3510.4410.5140.5920.6410.6830.7300.760
140.1820.3380.4260.4970.5740.6230.6640.7110.742
150.1760.3270.4120.4820.5580.6060.6470.6940.725
160.1700.3170.4000.4680.5420.5900.6310.6780.708
170.1650.3080.3890.4560.5290.5750.6160.6220.693
180.1600.2990.3780.4440.5150.5610.6020.6480.679
190.1560.2910.3690.4330.5030.5490.5890.6350.665
200.1520.2840.3600.4230.4920.5370.5760.6220.652
210.1480.2770.3520.4130.4820.5260.5650.6100.640
220.1450.2710.3440.4040.4720.5150.5540.5990.629
230.1410.2650.3370.3960.4620.5050.5430.5880.618
240.1380.2600.3300.3880.4530.4960.5340.5780.607
250.1360.2550.3230.3810.4450.4870.5240.5680.597
260.1330.2500.3170.3740.4370.4790.5150.5590.588
270.1310.2450.3110.3670.4300.4710.5070.5500.579
280.1280.2410.3060.3610.4230.4630.4990.5410.570
290.1260.2370.3010.3550.4160.4560.4910.5330.562
300.1240.2330.2960.3490.4090.4490.4840.5260.554
310.1220.2290.2910.3440.4030.4420.4770.5180.546
320.1200.2260.2870.3390.3970.4360.4700.5110.539
330.1180.2220.2830.3340.3920.4300.4640.5040.532
340.1160.2190.2790.3290.3860.4240.4580.4980.525
350.1150.2160.2750.3250.3810.4180.4520.4920.519
360.1130.2130.2710.3200.3760.4130.4460.4860.513
370.1110.2100.2670.3160.3710.4080.4410.4800.507
380.1100.2070.2640.3120.3670.4030.4350.4740.501
390.1080.2040.2610.3080.3620.3980.4300.4690.495
400.1070.2020.2570.3040.3580.3930.4250.4630.490
410.1060.1990.2540.3010.3540.3890.4200.4580.484
420.1040.1970.2510.2970.3500.3840.4160.4530.479
430.1030.1950.2480.2940.3460.3800.4110.4490.474
440.1020.1920.2460.2910.3420.3760.4070.4440.469
450.1010.1900.2430.2880.3380.3720.4030.4390.465
460.1000.1880.2400.2850.3350.3680.3990.4350.460
470.0990.1860.2380.2820.3310.3650.3950.4310.456
480.0980.1840.2350.2700.3280.3610.3910.4270.451
490.0970.1820.2330.2760.3250.3580.3870.4230.447
500.0960.1810.2310.2730.3220.3540.3840.4190.443

附表 11 (2)相关系数界值表

P(2):0.500.200.100.050.020.010.0050.0020.001
P(1):0.250.100.050.0250.010.0050.00250.0010.0005
520.0940.1770.2260.2680.3160.3480.3770.4110.435
540.0920.1740.2220.2630.3100.3410.3700.4040.428
560.0900.1710.2180.2590.3050.3360.3640.3980.421
580.0890.1680.2140.2540.3000.3300.3580.3910.414
600.0870.1650.2110.2500.2950.3250.3520.3850.408
620.0860.1620.2070.2460.2900.3200.3470.3790.402
640.0810.1600.2040.2420.2860.3150.3420.3740.396
660.0830.1570.2010.2390.2820.3100.3370.3680.390
680.0820.1550.1980.2350.2780.3060.3320.3630.385
700.0810.1530.1950.2320.2740.3020.3270.3580.380
720.0800.1510.1930.2290.2700.2980.3230.3540.375
740.0790.1490.1900.2260.2660.2940.3190.3490.370
760.0780.1470.1880.2230.2630.2900.3150.3450.365
780.0770.1450.1850.2200.2600.2860.3110.3400.361
800.0760.1430.1830.2170.2570.2830.3070.3360.357
820.0750.1410.1810.2150.2530.2800.3040.3330.328
840.0740.1400.1790.2120.2510.2760.3000.3290.349
860.0730.1380.1770.2100.2480.2730.2970.3250.345
880.0720.1360.1740.2070.2450.2700.2930.3210.341
900.0710.1350.1730.2050.2420.2670.2900.3180.338
920.0700.1330.1710.2030.2400.2640.2870.3150.334
940.0700.1320.1690.2010.2370.2620.2840.3120.331
960.0690.1310.1670.1990.2350.2590.2810.3080.327
980.0680.1290.1650.1970.2320.2560.2790.3050.324
1000.0680.1280.1640.1950.2300.2540.2760.3030.321
1050.0660.1250.1600.1900.2250.2480.2700.2960.314
1100.0640.1220.1560.1860.2200.2420.2640.2890.307
1150.0630.1190.1530.1820.2150.2370.2580.2830.300
1200.0620.1170.1500.1780.2100.2320.2530.2770.294
1250.0600.1140.1470.1740.2060.2280.2480.2720.289
1300.0590.1120.1440.1710.2020.2230.2430.2670.283
1350.0580.1100.1410.1680.1990.2190.2390.2620.278
1400.0570.1080.1390.1650.1950.2150.2340.2570.273
1450.0560.1060.1360.1620.1920.2120.2300.2530.269
1500.0550.1050.1340.1590.1890.2080.2270.2490.264
1600.0530.1010.1300.1540.1830.2020.2200.2410.256
1700.0520.0980.1260.1500.1770.1960.2130.2340.249
1800.0500.0950.1220.1450.1720.1900.2070.2280.242
1900.0490.0930.1190.1420.1680.1850.2020.2220.236
2000.0480.0910.1160.1380.1640.1810.1970.2160.230
2500.0430.0810.1040.1240.1460.1620.1760.1940.206
3000.0390.0740.0950.1130.1340.1480.1610.1770.188
3500.0360.0680.0880.1050.1240.1370.1490.1640.175
4000.0340.0640.0820.0980.1160.1280.1400.1540.164
4500.0320.0600.0770.0920.1090.1210.1320.1450.154
5000.0300.0570.0740.0880.1040.1150.1250.1380.146
6000.0280.0520.0670.0800.0950.1050.1140.1260.134
7000.0260.0480.0620.0740.0880.0970.1060.1160.124
8000.0240.0450.0580.0600.0820.0910.0990.1090.116
9000.0220.0430.0550.0650.0770.0860.0930.1030.100
10000.0210.0410.0520.0620.0730.0810.0890.0980.104

附表 12 成对资料秩和检验 R 的界值表

对子数
(n)
较小的秩号之和对子数
((n)
较小的秩号之和
P=0.05P=0.01P=0.05P=0.01
6163020
72173523
84184028
962194632
1083205238
11115215943
12147226649
131710237355
142113248161
152516258968

附表 13 两组资料秩和检验较小 R 值的界值表(双侧检验)

n2= 较大 n Pn1= 较小 n
23456789101112131415
40.0510
0.01
50.0561117
0.0115
60.057121826
0.01101623
70.05713202736
0.0110172432
80.05381421293849
0.011117253443
90.0538152231405163
0.016111826354556
100.053915233242536578
0.01612192737475871
110.05491624344455688196
0.0161220283849617487
120.054101726354658718599115
0.0171321304051637690106
130.0541018273748607388103119137
0.0171422314153657993109125
140.0541119283850637691106123141160
0.0171422324354678196112129147
150.0541120294052657994110127145164185
0.0181523334456708499115133151171
160.0541221314254678297114131150169
0.01815243446587286102119137155
170.05512213243567084100117135154
0.01816253647607489105122140
180.05513223345587287103121139
0.01816263749627692108125
190.05513233446607490107124
0.013917273850647894111
200.05514243548627793110
0.013918283952668197
210.05614253750647995
0.0139182940536883
220.056152638516682
0.013101929425570
230.0561527395368
0.0131019304357
240.05616284055
0.01310203144
250.056162842
0.013112032
260.0571729
0.0131121
270.05717
0.01411
280.057
0.014

附表 14 三组完全随机设计秩和检验的界值表

Nn1n2n3H0.05H0.01Nn1n2n3H0.05H0.01
73224.715325.256.82
3315.145414.996.95
83325.36114435.607.14
4225.335335.657.08
4315.205425.277.12
5215.005515.137.31
93335.607.20124445.697.65
4325.446.305435.637.44
4414.976.675525.347.27
5225.166.53135445.627.76
5314.966.405535.717.54
104335.726.75145545.647.79
4425.457.04155555.787.98

附表 15 附机单位组设计秩和检验的界值表

单位组数三个处理组四个处理组
H0.05H0.01H0.05H0.01
26.00
36.007.409.00
46.508.007.809.60
56.408.407.809.96
67.009.007.6010.20
77.148.867.8010.37
86.259.00
96.228.67
106.209.60
116.559.46
126.179.50
136.009.39
146.149.00
156.408.93

附表 16 Spearman 秩相关系数界值表

nrs0.05rs0.01nrs0.05rs0.01
60.8861.000310.3560.459
70.7860.929320.3500.452
80.7380.881330.3450.446
90.7000.833340.3400.439
100.6480.794350.3350.433
110.6180.755360.3300.427
120.5870.727370.3250.421
130.5600.703380.3210.415
140.5380.679390.3170.410
150.5210.654400.3130.405
160.5030.635410.3090.400
170.4850.615420.3050.395
180.4720.600430.3010.391
190.4600.584440.2980.386
200.4470.570450.2940.382
210.4350.556460.2910.378
220.4250.544470.2880.374
230.4150.532480.2850.370
240.4060.521490.2820.366
250.3980.511500.2970.363
260.3900.501
270.3820.491
280.3750.483
290.3680.475
300.3620.467

附表 17(1)随机数字表

编号12356678910111213141516171819202122232425
103474373863696473661469863716233261680456011141095
297742467624281145720425332373227073607512451798973
316766227665650267107329079785313553858598897541410
412568599269696682731050372931557121014218826498176
555595635643854824622316243099006184432532383013030
616227794394954435482173793237887352096438426349164
784421753315724550688770474476721763350258392120676
863016378591695556719981050717512867358074439523879
933211234297864560782524207443815510013429966027954
1057608632440947279654491746096290528477270802734328
1118180792464417165809798386196206765003105523640505
1226623897758416074499831146322420148588451093728871
1323424064748297777781074532140832989407729385791075
1452362819955092261197005676313880220253538660420453
1537859435128339500830423407968854420687983585294839
1670291712134033203826138951037417763713040774211930
1756621837359683508775971225934770332403549777464480
1899495722778842954572166436160004431866799477242190
1916081504723327143409455934684912720734459927729514
2031169332435027898719201537004952856660443868881180
2168343013705574307740442278842604334609526807970657
2274572565765929976860719138675413581824761554559552
2327423786534855906572965769361096469242459760490491
2400396829616637322030778457032910456504261104966724
2529949894246849691082537591933034252057274048735192
2616908266598362641112671900717460472129680202370331
2711279475060609197466029437340276709030863845943038
2835241016203332512638797845049116925356160275509598
2938231686384238970150877566814140017491624851840832
3031962591479644334913348682539100524348852755268962
3166674067146405719586110565096876832037905716001166
3214908445117573880590522741148622981222080752749580
3368055118003396027519076062935559338243904937384459
3420467873909751401402040233310839541649364795931330
3564195897791506159320019010750640787389620267741733
3605269370602235851513920351597759567806835291057074
3707971088230998429964617162991506512916935805770951
3868718685855487664754733208111244959263162956242948
3926996165535837788070421050674232175585749444671694
4014655268758759362241267863065513082701501529393943
4117537758717141615072124194962644952736990296743083
4290265921192352233312969302183907021836072599327023
4341235255993104496996104748458813414389209717144917
4460205081693199736868358133037624301248601899107234
4591253805909458284136453759030990355729128262546560
4634505774379880330091097793198274948004044507316649
4785220439437381539479336246862808315446315394133847
4809791377487382972221050327248372894405603580399488
4988758018142295754249393282224902480770371604616787
5090962370003900030690558578383694373069329089007633

附表 17(2)随机数字表

编号12356678910111213141516171819202122232425
153742399676132286984946267862498334119954753533809
263380686549900652694028290230779626780607591128119
335305821460672171094252131759649282400495565797807
463433682696551183788613844124532928588655434818535
598253755260191828146747112949724027137070392186675
602632117697150808956381570114843404586980083269103
764552221824822280600615413439182781223290666241227
885072613890110078204596369360369111583801329541928
958541624155154448200626165046938186518978572134921
1034852784876148645626901848132637701542576565803907
1103921827465799169656303372852284643856989901309864
1262953027593775416648869780614523530401634576086427
1308459315226021754691987727854228886108846962034273
1407085518404544751390249496610257556683157342371161
1501858995665110193488158497197512763943786463910825
1672847114351911584926501117177686315720189560784675
1788782816841352539453754569309673896570319917434876
1845177565572840197212251274756760406081192462016116
1996762812542201119425719616168868643674451959608892
2043316772302402940863383236660269363825394803451522
2150446644216606580562631554350242354896321452415248
2222662215862663754199584236722458375218510337183911
2396244014512322308857956747298394694006071816367886
2431739161196020729348985707236965953969585680301944
2578607399844389943645566947074190229107127835340872
2684379061567010239805851134766076484534600164183996
2736671008239893350886992976298133349158936314523252
2807285907488964588975838562278930147856278663598002
2910158387607924316656214824069391989405490147593800
3055196897650373521656005355902733422938872213888334
3153812913393501207134623374821453731909035654295693
3251863268923398746699401471945845941938811444998107
3335917029138003540727969478326650955274331380556254
3437716795132002449594648504057201329076145389746041
3593661383279279646472285496538448145298945607938930
3602960845651305004184930754725921455709771948562744
3749834348358288336996723604197647451518608211089597
3884607162464080813037343923053825153571308812572177
3918173088714491148847892330631556342047899982932498
4079691061787132769562870022584092540175254311719931
4175933657835620148211742197906596426863867454132694
4238309229030628813938622506846361290893670432920809
4351295010343157759580519702747776154849441855637709
4421313886243779815374732416103352839094767047145436
4529012387825802393767421014209216552342455496091106
4695339522001874720018387958693281768026928280842539
4790846079802436598738820753893596352379180598900735
4846406298825497205695157480083216467050806772164279
4920318903433846826872321482997080604718976349302130
5071597305500822237177910193204982965926946639679860

附表 17(3) 随机数字表

编号12356678910111213141516171819202122232425
122176865846895239235870222575161094395065824820347
219362759461379933755397732770985520530624783516274
316772302770961872521280624259316711359782305474725
478437671612044903264976763996146380393226981219921
503282826087337320405693016090588695828993507447547
693225364390710637635870304798808131385515534577269
778765854749238709692520679794582631827446966921909
823683526009953936128527005483456650561869092107080
915392570999386527765153359052822872607478696982906
1058719630241846233427851399244449180979497416322302
1157352733722453639409411076479144049549663960045981
1248508654482206347252822115652033299471111591291203
1361964895030716393366985610567977213027129049222362
1436938941262970836351997420523687094115099860160303
1518870042315790120207234737173154080188633941889210
1688565327593335726747773455457008182738901695867075
1709729584294941310670423806451864847331655253379715
1812968817316519690283607586906824641935515661873912
1985945724169209843876220027698529819478702194479012
2038644359939877876807915167624440980593782332654118
2153440942720041867979684722002035553151510083632255
2240766626845799999037366332085837401368978764810783
2302177918051259525702220790470328141130792069224098
2495178206533151109646920688077756115081694023725139
2535762242929611834480346835487733424090607396539786
2626291356418547046608347257591382438046153826617004
2777802075827282329990639573766389734499054867264313
2846406644529136744353308213540078456398355503366768
2937560818097753844647319118955824167411534410138557
3061656168663727473919848370074853214006719506798854
3193436964073418045235562709248661855383451990709900
3221966012991120994518481393553418377949906597382046
3395204797972737832871000641417445800939845167115249
3497862178731065819259587617149704766216171795704580
3569920634135971741732275510241923718213746352520141
3604311721563373991987267239276753775768936061972261
3761069803918714774396430065985045603301079899465047
3885938586887287086240160610892023213474977638032963
3921743247457396079452096590774725761619335305705330
4015695382807996235310653907162945330243700287404145
4102890804492021146886876393951711290195803514973533
4287181589798543017273086174516989743982159451334167
4398837194225997509952085285084087806165319151803244
4410085821667268492931898584460659731985236509297563
4547905610088802842783422972231966564565792071532025
4622856168904964928544164012898850144981060182774512
4767804379331283114116255819687077025400525343371526
4827625096727944614015145340653927315850281139033425
4933788087153830063821144747072654968753324036409676
5013139266994724495774222543021710971169849963223298

附表 17(4) 随机数字表

编号12345678910111213141516171819202322232425
110275396237150543623543104829304141215092678254747
228415061886485272018833636055639716509629476621189
334214257025919189748803003309805246770078497508746
461817723238282115408532870589644073955434234433928
561151813541686202688907480550914539051175201630159
691762164644491133297753162665484803275775608257029
700977908063730285985535668534001743959733019998548
836461834947520802777789169160008431873686769613425
988989960506595794294936240899643564771664676296702
1004375987210502032417479781565192348601825551331291
1163620634419421785509727645169429958183837988019730
1278472353903441924571092370700712389279431485114723
1387686215435314365925544733701559244840355003429936
1447609210778859531152662569070448686471066165702212
1556888759416528046753957988373150410694768183171633
1602574586677343073448442687932977096167840669447775
1731541413174862119060681293642846247916761460255101
1828501643362897855899672252762324703654545928617196
1953296266500263455238676347547583247843209263134748
2045655826517696593872865745714644677614554488016212
2139653663707745855051741339352230533602954934887361
2273719816042918945123765194848679939638630858255894
2372205620117265710886795795139197487266480971172496
2475172699768937207001773161954626970573515333187287
2537486082298130153914483875932906873778484546008447
2668080280728371463049891795882902395603469774065617
2714239861677052850150018402784310629819411883994799
2849089621442527994128074108346619427439914196537872
2978370608436361624229396895109609242300625612807316
3037213417686896832356328460153144736734779115797458
3114200934048783075507765830836487292558848650600025
3258432806364952835114475691293405873106951245470909
3310436729708062800342108021388490563503094312744914
3444388839548697374422009501317617162956633878944981
3590695919518539528513072837076111163627037886720495
3641471025629705310361202636196268698695448495484645
3791941463197589114711315634190979579236591493878140
3880065418660918940619984007178122454484112462204231
3967727763488408315558243345775880456793827570160824
4059402413277926888630013160103953584770938581563938
4105903589950161169694507813693637685337317126350371
4244438069984668051482907850056277791357445960103966
4361813196820057256059467260187755661262110899556457
4442880710052498656321472161883227803021601092353612
4577943005392810990027127373991249995794829688571791
4678831976169411688426235420868523866699073637349209
4787765961814363646161657636959018482745682723653072
4891430596475578999524375585787801484119103519540773
4984977772730962066572371249036041152076275047022916
5087416076834488960780830583889673706681903056104859

附表 17(5) 随机数字表

编号12345678910111213141516171819202122232425
128896587081350630423254757911352622419949167485710
230294365427866285580474641900855987810704992051207
395746260535157322227127272277744673223136795077630
401855496726686656460565975367546443363715450064475
510914696861983524753650051935130800519295623271903
605331808515178572617348796239589999339791128941552
704431337007968962660703983665662035586577755336202
805854025247352937050482147746317272751263596290045
984909065776399256902090403357819799507210284485197
1028555309488628300235713032064793742186334990216974
1189834069809796475997563324873617181690467527285213
1273209605689341699607975081795942371381839242850431
1310890776214024743642403304462435630231613459433696
1491502778370606162598177880368526417763377163949433
1503454466889781260389394667211798103933156163002592
1689415891636599599784901479615556168887603215996743
1713430097261691213241602266721731853369076849204329
1871710051726203892632352799182578120309705093193556
1919281500419227734038371105751698819937299220323967
2056383092304551946904008414363795663901092168409579
2139275289110081062848120805752603356305771381206758
2273132858010506422407606029999372937804360576015403
2381608451571268465589600971878970811095918379682066
2405629807850779266961678572374185797648236158870805
2562971629185216162356629580976332253403364884603765
2631136321081601925821487974737208648091380728666159
2797383534198984053447880931548897968601694613956596
2832117833825199984439127510603680663994974236311659
2981991337050812603923617384891826020437959618690630
3045740003056999472652480630001803302855596610714405
3111841369018891287950714214965598599601368877904559
3214661287225945270851856423854164720859446798366556
3340256787828427173037486949025898025058119539063563
3444489749436545534107148346741176666360089054336584
3541945406574828018384091121917397284474062230956972
3607121558849318318345545262299153585466054719639275
3764279043521826329683505845275714963964857387967623
3880718641034562634088356934109432225204746963218341
3927060809922622592827385822147924321238423356909257
4054689720543326740330742219134830280192495861522703
4102926568990553152670046922640704732574827835222188
4283525778629861704822685064557542703209605870614397
4382827631338513413810164761437783271970413478776025
4438613409490441660976205073409524779573204742806103
4501011188380310168224395820123982770218883311491516
4621661438285408180704921763367533141111789730536238
4732293069596850333147156488752704514161968662936671
4804592165473990898677468686888650091324915480677866
4938645007365650459425482848305160737303876847371084
5048335083535977645990589262501893094589061326988629

附表 17(6) 随机数字表

编号12345678910111213141516171819202122232425
125196482846274299224610391224864946315076685120027
223024146044431524307440603093419839462944828015192
355856696282830625883656862424513086046289568455243
468451969593514825680220652263959789876143609030186
569314629851888269554010214030548002643853393811597
637316128989461470310678084412688845969147732828189
766421924941313386996766976241343831013241832848504
833657812359159113844233148757405300846329004935616
976320619352295301929577443209020253670693832110101
1043334202592039849561582204029999787883824367163895
1128319343948773193847543690981083433226262200905922
1297192163346933170302111550460842696017421468611448
1382803714205639598963339038445078228710880658873967
1403680313606413093711860257419931666065640303025897
1565165811019878806323073766205620960679803339404942
1624655857041862852824264517827639650173915037493873
1702726407758566483873751096593148780008887208545717
1879167863994361006642762671143338867671653785055607
1904751493396852168334640944625848027226953267354971
2040646457609700129133221473011183976805656777809887
2106270734260152486957191753559602410389338685730232
2262400387109688224694355660942060730484989641184707
2300984818979151632795742584030788290479840371137826
2450611918919855834609496641124511493683435375351339
2538545225780198008985861222892510107119458854770007
2646868097786512646470584105490868688854008161618041
2790729293100912819363693002042692264869459199080765
2866214177609935726122524074672997507139795782118806
2987054652768996342237271157041957960836690751199266
3046906103068985332280348912293744713840371549555108
3111885306098183339829912759430970725149733597258341
3211059206976882340883254058406456427854066096961282
3333942420285242071263343902923180616814196992147340
3424897475616102733685672850498537799502667319762813
3515197467236138937368762315582035368282590133481766
3605641270888058350688734827394343401335455510543850
3757493644067493553926277098766878362624064324564080
3877829696976042171848163492195298844842928319067778
3924107006515962379542536714952984654307307754001542
4050000778234954368514185054188223798071376062954030
4144377621963703089864908559436417799652352105225930
4290575517475326792038699058640333483291546844902125
4350746467429528127323325498649482171817145516616429
4444047022028431646408525504242991954381146613184744
4532746164732146514477724892000583598965065376705878
4675735170491253675154381011677322326143753161222111
4776183616341628258298642670548749485511399125208085
4800173771816421911582810414521139073060773918278568
4954955755041277407011798661575052494173460563349233
5069999554634437335317380658379347106231286359404032

附表 18(1) 随机化分组表

10×10 随机拉丁方

112345678910urs
112784653950.3212
227649538170.2000
338591726440.0788
44963812578-0.3939
59276183459-0.4545
683425679160.1152
756134798260.2727
87985241637-0.6242
941382957670.5636
106517394285-0.0788
u86886684861
60.3818-0.0667-0.0061-0.5273-0.06670.03030.43030.03030.16360.3697
212345678910urs
13962487155-0.2848
26927315847-0.1273
345139627850.4424
413596874240.3939
59264875315-0.2606
658427361970.2606
78175249638-0.1273
87614538928-0.1636
924381965760.3697
107851923467-0.5030
u66866475862
rs0.40510.34500.2970-0.06670.0667-0.2727-0.24850.04240.2121-0.0788
312345678910urs
19156784237-0.4061
22984153765-0.1273
318279463550.2000
486527319450.0303
557412638980.5394
632198465750.3939
765738214960.0303
83941572685-0.1152
97468395126-0.3697
104365927818-0.1758
u86664778773
rs0.16360.07880.2364-0.0545-0.27270.51520.0424-0.1516-0.1515-0.1152
412345678910urs
132854179660.3939
28269134754-0.3455
38574296317-0.0121
414532768990.5758
57486591235-0.6364
626391854760.3697
769137425850.2364
89761382548-0.3939
95178649326-0.1758
1043925786160.0909
u646488410464
rs-0.0667-0.11520.2848-0.33330.2970-0.07830.47830.7272-0.1636-0.5758

附表 18(2) 20 个自然数的随机排列

1234567891011121314151617181920urs
10217120906190418070510011608151120130314150.1293
2190403151310171209160502061108200718011416-0.0526
30608091220140518150403130201071911161710130.0992
4101715120103181909060204041420160705081312-0.0602
51601140719100317021106091205181320081504170.0752
6132011100401171814051602190307120806091511-0.1699
70510201503040913011612021917071418081106100.0962
8171409150513020818041603061101192010071210-0.0511
90313141118081512100106190704051702162009130.0286
100716021109171505140312130620010408181019110.1308

附表 18(3) 30 个自然数的随机排列

123456789101112131415161718192021222324252627282930urs
120120503262117092419140622112829273008021518012516040713102318-0.0763
204280110172611222716132012231824090229192515063007140521030821-0.1204
3182124042002231716132711051206280114092210082907301503251926150.0785
408211210190628172629031413043007232411011620250205221527180922-0.0024
527141623302501041124122203210520181315071002280809261906291717-0.0990
629181213060926012316281108271003221725302004151402190521240721-0.0785
728142011301005092504191629071812081517022723032601222413210617-0.0865
8140820270621160301281925041512182317220230260511240913100729180.0376
9101409290524180726230401281911130225033016062112172220081527180.1039
1006292230092027040724010314101615131826252802231917081205211118-0.1012

附表 18(4) 40 个自然数的随机排列

112345678931234567895123456789
371404293417220938213235210409362710192230113835242918020631
101510313002120116333610231528173716112606391001232839201534211033
203203081106021325184020183431030833400714292004091237262516051440
302435192627230528073930200401381335021205303027361732190322130807
u=27 r=0.0514u=31 r=0.0861u=34 r=-0.1737
246
192631382306154027332130022703162004251523342718261736240522
100203161037181121043610123911243529362819341003163201312007123728
202508052217391224072920331810233706170813402030251311140406354029
302813342009321401303530012609380522311432073033081039021909381521
u=31 r=0.0383u=29 r=0.0199u=27 r=-0.0614

附表 18(5) 50 个自然数的随机排列

112345678931234567895123456789
380942084721500739301635253823422845183743124107501349140526
103612233240272433101110344101123904274403321015223720442531402936
302849452946151744032230491546092247063110433047031628391902344510
300106201825163548054130140819113607202102173042230411320617462709
401431190226133443043740264829052440133033504024483313300138213508
u=36r=-0.1553u=41r=-0.0972u=36r=-0.1219
246
023041400437492207101007243722462532171348013138172003303718
103124475045142544033910041145292605024740091029055011442506234228
201201432849172005361320164136192748331439083004493626151443223913
300621270833420929361830421538233050340649283010194132072447084621
401548111626353223193440431221011820350344344035402702333409124516
u=39 r=-0.0555u=39 r=-0.1000U=41 r=0.0088

附表 18(6) 100 个自然数的随机排列

112345678921234567893123456789
260386733691841119764873123719624710165144120786094853636689
102308208564355780437210963157365481305586931031646119947392590070
204934976088699641740120880903666578846153342072038934961595288520
305152476693814831024430442598832859921356793080758269609885026745
400453982521062862851740144576436318948580414052790413770611917608
500027401322500971243950709146290517263306425043362754014029421738
605883789433184579129560277540230452718874116007249726471858419005
701590571652750530793670607201952068996967247092497499508825711481
807063676861461087426580075835328915028790628065571030552178565162
906188592982071492998990215049640079089722399039936822231683334684
u=74 r=0.065910u=76 r=-0.0459u=79 r=-0.034

附表 19(1) 两样本率比较时所需样本含量(单侧)

上行:α=0.05,1-β=0.80

中行:α=0.05,1-β=0.90

下行:α=0.01,1-β=0.95

较小率
(%)
δ= 两组率之差(%)
510152025303540455055606570
53301055535252016131198766
460145764834262117151311987
8502701408963473730252119171413
1054015576473223191513119876
74021010564443325211714121198
137039019512081604637302521191614
15710200945638272117141210876
990270130775238292219161310108
182050024014596695241332722201714
208602301106342302218151210876
1190320150885841312420161411108
2190590280160105765744352823201714
25980260120694532241915121087
13603601659663443325211614119
25106603001751158160463629232016
30108028013073473324191512108
15003901751006546332521161311
276072033018512084614736282219
351160300135754833241915129
160041018510567463325201612
2960750340190125856146352721
40121031013576483324181411
1670420190105674633241914
30807803501951258460443325
451230310135754732221713
17104301901056544312217
314079035019012081574130
5012303101357345302115
171042018510063412921
3140780340185115765237

附表 19(2)两样本率比较时所需样本含量(双侧)

上行:α=0.05,1-β=0.80

中行:α=0.05,1-β=0.90

下行:α=0.01,1-β=0.95

较小率
(%)
δ= 两组率之差(%)
510152025303540455055606570
5420130694431242016141210997
57017593594232252118151311109
9603001551071544234282421191614
106801959659413023191613111097
9102601307954403124211815131110
155044022013592685241342823211815
1591025012071483426211714121098
12203301609564463527221916131110
2060560270160110785947373125211916
20109029013580533828221815131097
146039018510571513829232016141110
2470660310180120866450403226211915
2512503301508857403023191513109
1680440200115775440312420161311
28407403402001309268524132262118
301380360160936042312319151210
18404802201258056413124201613
312081037021013595695341322521
3514703801709661423123181411
197050022513082574131231915
3340850380215140966952403123
40153039017597614230221713
2050520230130825640292218
34808803902201409568503728
451560390175966040282116
21005202301308054382721
355089039021513592644734
5015603901709357382619
210052022512577513524
3550880380210130865941

附表 20 配对比较(t 检验)时所需样本含量

单侧:α=0.005
双侧:α=0.01
单侧:α=0.01
双侧:α=0.02
单侧:α=0.025
双侧:α=0.05
单侧:α=0.05
双侧:α=0.1
δ
1-β=0.990.950.90.80.50.990.950.90.30.50.990.950.90.80.50.990.950.90.80.5
0.050.05
0.100.10
0.151220.15
0.2013999700.20
0.251109012864139101450.25
0.30134781156311990451229771320.30
0.3512599581098547109886734907252240.35
0.4011597774510185663711784685126101705540190.40
0.459277623711081685330936754412180554433150.45
0.50100756351309066554325765444341865453627130.50
0.5583635342267555463621634537281554383022110.55
0.607153453622634739311853383224134632261990.60
0.656146393120554134271646332721123928221780.65
0.705340342817473530241440292419103424191580.70
0.75473630251642312721133526211693021171370.75
0.80413227221437232419123122191592719151260.80
0.85372924201333252417112821171382417141160.85
0.90342622181229231916102519161272115131050.90
0.953124201711272118149231714117191411950.95
1.002822191610251916139211613106181311851.00
1.1241916149211614128181311961511971.1
1.2211614128181412107151210851310861.2
1.318151311816131196141097118761.3
1.41613121071411109612987108751.4
1.5151211971310986118769761.5
1.6131110861210975108768661.6
1.712109861098797658651.7
1.8121098610877876761.8
1.911987610876866751.9
2.0108875977676562.0
2.11087787667662.1
2.2987687657662.2
2.397768666552.3
2.4877676662.4
2.5876676662.5
3.0766565553.0
3.565553.5
4.064.0

附表 21 两样本均数(t 检验)时所需样本含量

δ单侧:α=0.005
双侧:α=0.01
单侧:α=0.005
双侧:α=0.01
单侧:α=0.005
双侧:α=0.01
单侧:α=0.005
双侧:α=0.01
δ
1-β=0.990.950.90.80.50.990.950.90.80.50. 90.950.90.80.50.990.950.90.80.5
0.050.05
0.100.10
0.150.15
0.201370.20
0.25124880.25
0.3012387610.30
0.351109064102450.35
0.4085701005010878350.40
0.45118681015510579391088662280.45
0.5096551068245106866432887051230.50
0.55101794610688683887715327112735842190.55
0.60101856739907458321047460452389614936160.60
0.658773573410477644927886351392076524230140.65
0.70100756350299066554324765544341766453626120.70
0.7588665544267958483821674839291557403223110.75
0.8077584939237051433319594234261450352821100.80
0.856951433521624638301752373123124531251890.85
0.906246393119554134271547342721114028221680.90
0.955542352817503731241442302519103625201570.95
1.00503832261545332822133827231793323181471.00
1.1423227221338282319113223191482719151261.1
1.236272318113224201692720161272316131051.2
1.33123201610282117148231714116201411951.3
1.4272017149241815128201512106171210841.4
1.52418151382116141171813119515119741.5
1.62116141171914121061612108514108641.6
1.71915131071713119614119741297631.7
1.8171311106151210851310864118751.8
1.9161211961411985129764107651.9
2.014111086131097511876497642.0
2.1131098512987510865386542.1
2.21210875119764976586542.2
2.3119875108764976575542.3
2.4119865108764865475442.4
2.510876497654865465432.5
3.0866547654365445433.0
3.56554365445443433.5
4.06644544344344.0

英汉统计名词对照

A

abscissa横坐标
absence rate缺勤率
absolute number绝对数
absolute value绝对值
accident error偶然误差
accumulated frequency累积频数
alternative hypothesis备择假设
analysis of data分析资料
analysis of variance(ANOVA)方差分析
arith-log paper算术对数纸
arithmetic mean算术均数
assumed mean假定均数
arithmetic weighted mean加权算术均数
asymmetry coefficient偏度系数
average平均数
average deviation平均差

B

bar chart直条图、条图
bias偏性
binomial distribution二项分布
biometrics生物统计学
bivariate normal population双变量正态总体

C

cartogram统计图
case fatality rate(or case mortality)病死率
census普查
chi-sguare(X2) test卡方检验
central tendency集中趋势
class interval组距
classification分组、分类
cluster sampling整群抽样
coefficient of correlation相关系数
coefficient of regression回归系数
coefficient of variability(or coefficieut of variation)变异系数
collection of data收集资料
column列(栏)
combinative table组合表
combined standard deviation合并标准差
combined variance(or poolled variance)合并方差
complete survey全面调查
completely correlation完全相关
completely random design完全随机设计
confidence interval可信区间,置信区间
confidence level可信水平,置信水平
confidence limit可信限,置信限
constituent ratio构成比,结构相对数
continuity连续性
control对照
control group对照组
coordinate坐标
correction for continuity连续性校正
correction for grouping归组校正
correction number校正数
correction value校正值
correlation相关,联系
correlation analysis相关分析
correlation coefficient相关系数
critical value临界值
cumulative frequency累积频率

D

data资料
degree of confidence可信度,置信度
degree of dispersion离散程度
degree of freedom自由度
degree of variation变异度
dependent variable应变量
design of experiment实验设计
deviation from the mean离均差
diagnose accordance rate诊断符合率
difference with significance差别不显著
difference with significance差别显著
discrete variable离散变量
dispersion tendency离中趋势
distribution分布、分配

E

effective rate有效率
eigenvalue特征值
enumeration data计数资料
equation of linear regression线性回归方程
error误差
error of replication重复误差
error of type IIⅡ型错误,第二类误差
error of type IⅠ型错误,第一类误差
estimate value估计值
event事件
experiment design实验设计
experiment error实验误差
experimental group实验组
extreme value极值

F

fatality rate病死率
field survey现场调查
fourfold table四格表
freguency频数
freguency distribution频数分布

G

Gaussian curve高斯曲线
geometric mean几何均数
grouped data分组资料

H

histogram直方图
homogeneity of variance方差齐性
homogeneity test of variances方差齐性检验
hypothesis test假设检验
hypothetical universe假设总体

I

incidence rate发病率
incomplete survey非全面调检
indepindent variable自变量
indivedual difference个体差异
infection rate感染率
inferior limit下限
initial data原始数据
inspection of data检查资料
intercept截距
interpolation method内插法
interval estimation区间估计
inverse correlation负相关

K

kurtosis coefficient峰度系数

L

latin sguare design拉丁方设计
least significant difference最小显着差数
least square method最小平方法,最小乘法
leptokurtic distribution尖峭态分布
leptokurtosis峰态,峭度
linear chart线图
linear correlation直线相关
linear regression直线回归
linear regression eguation直线回归方程
link relative环比
logarithmic normal distribution对数正态分布
logarithmic scale对数尺度
lognormal distribution对数正态分布
lower limit下限

M

matched pair design配对设计
mathematical statistics数理统计(学)
maximum value极大值
mean均值
mean of population总体均数
mean square均方
mean variance均方,方差
measurement data讲量资料
median中位数
medical statistics医学统计学
mesokurtosis正态峰
method of least squares最小平方法,最小乘法
method of grouping分组法
method of percentiles百分位数法
mid-value of class组中值
minimum value极小值
mode众数
moment动差,矩
morbidity患病率
mortality死亡率

N

natality出生率
natural logarithm自然对数
negative correlation负相关
negative skewness负偏志
no correlation无相关
non-linear correlation非线性相关
non-parametric statistics非参数统计
normal curve正态曲线
normal deviate正态离差
normal distribution正态分布
normal population正态总体
normal probability curve正态概率曲线
normal range正常范围
normal value正常值
normal kurtosis正态峰
normality test正态性检验
nosometry患病率
null hypothesis无效假设,检验假设

O

observed unit观察单位
observed value观察值
one-sided test单测检验
one-tailed test单尾检验
order statistic顺序统计量
ordinal number秩号
ordinate纵坐标

P

pairing data配对资料
parameter参数
percent百分率
percentage百分数,百分率
percentage bar chart百分条图
percentile百分位数
pie diagram园图
placebo安慰剂
planning of survey调查计划
point estimation点估计
population总体,人口
population mean总体均数
population rate总体率
population variance总体方差
positive correlation正相关
positive skewness正偏态
power of a test把握度,检验效能
prevalence rate患病率
probability概率,机率
probability error偶然误差
proportion比,比率
prospective study前瞻研究
prospective survey前瞻调查
public health statistics卫生统计学

Q

quality eontrol质量控制
quartile四分位数

R

random随机
random digits随机数字
random error随机误差
random numbers table随机数目表
random sample随机样本
random sampling随机抽样
random variable随机变量
randomization随机化
randomized blocks随机区组, 随机单位组
randomized blocks analysis of variance随机单位组方差分析
randomized blocks design随机单位组设计
randomness随机性
range极差、全距
range of normal values正常值范围
rank秩, 秩次, 等级
rank correlation等级相关
rank correlation coefficent等级相关系数
rank-sum test秩和检验
rank test秩 (和) 检验
ranked data等级资料
rate
ratio
recovery rate治愈率
registration登记
regression回归
regression analysis回归分析
regression coefficient回归系数
regression eguation回归方程
relative number相对数
relative ratio比较相对数
relative ratio with fixed base定基比
remainder error剩余误差
replication重复
retrospective survey回顾调查
Ridit analysis参照单位分析
Ridit value参照单位值

S

sample样本
sample average样本均数
sample size样本含量
sampling抽样
sampling error抽样误差
sampling statistics样本统计量
sampling survay抽样调查
scaller diagram散点图
schedule of survey调查表
semi-logarithmic chart半对数线图
semi-measursement data半计量资料
semi-guartile range四分位数间距
sensitivity灵敏度
sex ratio性比例
sign test符号检验
significance显著性, 意义
significance level显著性水平
significance test显著性检验
significant difference差别显著
simple random sampling单纯随机抽样
simple table简单表
size of sample样本含量
skewness偏态
slope斜率
sorting data整理资料
sorting table整理表
sources of variation变异来源
square deviation方差
standard deviation(SD)标准差
standard error (SE)标准误
standard error of estimate标准估计误差
standard error of the mean均数的标准误
standardization标准化
standardized rate标化率
standardized normal distribution标准正态分布
statistic统计量
statistics统计学
statistical induction统计图
statistical inference统计归纳
statistical map统计推断
statistical method统计地图
statistical survey统计方法
statistical table统计调查
statistical test统计表
statistical treatment统计检验
stratified sampling统计处理
stochastic variable分层抽样
sum of cross products of随机变量
deviation from mean离均差积和
sum of ranks秩和
sum of sguares of deviation from mean离均差平方和
superior limit上限
survival rate生存率
symmetry对称(性)
systematic error系统误差
systematic sampling机械抽样

T

t-distribution t 分布
t-test t 检验
tabulation method划记法
test of normality正态性检验
test of one-sided单侧检验
test of one-tailed单尾检验
test of significance显著性检验
test of two-sided双侧检验
test of two-tailed双尾检验
theoretical frequency理论频数
theoretical number理论数
treatment处理
treatment factor处理因素
treatment of date数据处理
two-factor analysis of variance双因素方差分析
two-sided test双侧检验
two-tailed test双尾检验
type I error第一类误差
type II error第二类误差
typical survey典型调查

U

u test u 检验
universe总体, 全局
ungrouped data未分组资料
upper limit上限

V

variable变量
variance方差, 均方
variance analysis方差分析
variance ratio方差比
variate变量
variation coefficient变异系数
velocity of development发展速度
velocity of increase增长速度

W

weight权数
weighted mean加权均数

Z

zero correlation零相关

计算公式索引

相对数

公式(3.1)《医学统计学》

公式(3.2)《医学统计学》

公式(3.3)《医学统计学》

χ2检验

公式(3.4)理论频数《医学统计学》

公式(3.5)χ2 基本公式《医学统计学》

公式 (3.6)χ2 自由度 ν=(R-1)(C-1)

公式(3.7)χ2 校正的基本公式《医学统计学》

公式 (3.8) 四格表专用公式《医学统计学》

公式 (3.9) 四格表校正公式《医学统计学》

公式(3.10)2×k 表专用公式《医学统计学》

公式(3.11)《医学统计学》

公式(3.12)R×C 表通用公式《医学统计学》

中位数

公式 (4.1) 当 n 为奇数时《医学统计学》

公式 (4.2) 当 n 为偶数时《医学统计学》

公式 (4.3) 频数表上计算《医学统计学》

公式(4.4)《医学统计学》

百分位数

公式 (4.5) 频数表上计算《医学统计学》

算术均数

公式(4.6) χ=(1/n)∑X

公式(4.7) χ=C+(1/n)(Xi-C)

公式(4.8) χa=Xa-1+(1/n)(Xa-Xa-1)

公式(4.9) χ=(1/n)∑fX

几何均数

公式(4.10)《医学统计学》

公式(4.11)《医学统计学》

四分位数间距

公式(4.12) Q=P75-P25

均差

公式(4.13)《医学统计学》

标准差

公式(4.14) 样本标准差《医学统计学》

公式(4.15) 递推计算《医学统计学》

公式(4.16) 直接计算《医学统计学》

公式(4.17)《医学统计学》

变异系数

公式(4.18) CV=S/X×100%,X>0

正态曲线

公式(5.1) 正态曲线方程《医学统计学》

(5.2) 正态离差《医学统计学》

(5.3) 标准正态曲线《医学统计学》

(5.4) 正常值范围 X±uαs

标准误

(6.1) 理论标准误《医学统计学》

(6.2) 样本均数的标准误《医学统计学》

(6.3) 率的标准误《医学统计学》

(6.4)《医学统计学》

t 分布

(6.5)《医学统计学》

总体均数的估计

(6.6) 95% 可信区间 X-t0.05,νSχ<μ<x+t0.05,νSχ</x+t

(6.7) 99% 可信区间 X-t0.01,νSχ<μ<x+t0.01,νSχ</x+t

总体率的估计

(6.8) 95% 可信区间 P -1.96Sp<π<p+1.96sp<p< p=””></p+1.96sp<p<>

(6.9) 99% 可信区间 P -2.58Sp<π<p+2.58sp<p< p=””></p+2.58sp<p<>

t 检验

公式 (6.5) 样本均数与总体均数比较《医学统计学》

公式(7.1) 两样本均数比较的自由度 ν=n1+n2-2

公式(7.2) 合并方差《医学统计学》

公式(7.3) 两均数相差的标准误《医学统计学》

公式(7.4) t 检验《医学统计学》

u 检验

公式 (7.5) 两均数相关的标准误《医学统计学》

u 检验《医学统计学》

公式 (7.6) 两样本率比较《医学统计学》

《医学统计学》

公式(7.7)《医学统计学》

公式(6.4)《医学统计学》

正态性检验

公式(7.8) w 检验《医学统计学》

公式(7.9) 偏度系数《医学统计学》

公式(7.10)《医学统计学》

公式(7.11) 峰度系数《医学统计学》

公式(7.12)《医学统计学》

公式 (7.13) g1的抽样误差《医学统计学》

公式 (7.14) g2的抽样误差《医学统计学》

公式 (7.15) g1的 u 检验 u1=g1/Sg1

公式 (7.16) g2的 u 检验 u2=g2/Sg2

两方差齐性检验

公式(7.17) F=S12/S22,S1>S2

方差分析

公式(8.1) 总离均差平方和《医学统计学》

公式(8.2) 组间离均差平方和《医学统计学》

公式(8.3) 组内离均差平方和《医学统计学》

公式 (8.4) 总变异自由度 ν=N-1

公式(8.5)组间变异自由度 ν组间=k-1

公式 (8.6) 组内变异自由度 ν 组内=N-k

公式(8.7) F 检验 F = 组间均方 / 组内均方

多个均数间两两比较

公式(8.8) 最小显著相差 D α=t,νS《医学统计学》A-《医学统计学》B

公式(8.9) 两均数的标准误《医学统计学》

公式(8.10) 平均例数《医学统计学》i=1,2,…,k

公式(8.11) 标准误《医学统计学》

多个方差齐性检验

公式(8.12)《医学统计学》

公式(8.13)《医学统计学》

直线相关

公式(9.1) 直线相关系数《医学统计学》

公式(9.2) 离均差积和《医学统计学》

公式(9.3) 相关系数 t 检验《医学统计学》

直线回归

公式(9.4) 直线回归方程 γ=a+bx

公式(9.5) 回归系数《医学统计学》

公式(9.6) 截距 a=γ-bχ

公式(9.7) 回归系数 t 检验《医学统计学》

公式(9.8) 回归系数的标准误《医学统计学》

公式(9.9) 标准估计误差《医学统计学》

公式(9.10) 估计误差平方和《医学统计学》

公式(9.11) 两回归系数相关的 t 检验《医学统计学》

公式(9.12) 两回归系数相差的标准误《医学统计学》

公式(9.13) 两回归系数的合并方差《医学统计学》

符号检验

公式(10.1) 成对资料比较《医学统计学》,ν=1

公式(10.2) 秩号的中位数《医学统计学》

公式(10.3) 两组符号检验《医学统计学》,ν=1

公式(10.4) 两组符号检验《医学统计学》,ν=组数-1

秩和检验

公式(10.6) 成对资料比较

公式(10.6) 两组资料求较小 R'R'=n1(n1+n2+1)-R

公式(10.7)两组资料比较《医学统计学》

公式(10.8) 多组完全随机设计资料的比较《医学统计学》

公式(10.9) 多组随机单位组设计资料的比较《医学统计学》

公式(10.10) 多组秩和的两两比较《医学统计学》

秩相关系数

公式(10.11)Spearman 秩相关系数《医学统计学》

参照单位分析

公式(10.12) 平均 R 值《医学统计学》

公式(10.13)R 的标准误《医学统计学》

公式(10.14)R 的 95% 可信限《医学统计学》

样本含量的估计

公式(11.1) 两个率比较所需例数《医学统计学》,1-β=0.5,α=0.05

公式(11.2) 大样本成对资料比较均数所需例数 n=4S2/X2,1-β=0.5,α=0.05

公式(11.3) 小样本成对资料比较均数所需例数《医学统计学》,1-β=0.5

正文完
使用官方微信公众号体验更多功能
post-qrcode
 0
评论(没有评论)