在开展医学科研的过程中,我们获得的资料大致有两种类型。其一是计量资料,比如转氨酶、血脂、肿瘤标志物等,这些资料的典型特点是几乎可以用“任意数值”表示,比如转氨酶为15.28U/L,血糖为7.77mmol/L等;其二是计数资料,比如性别(男/女),疗效(治愈/有效/无效)、血型(A/B/O/AB型)等,这些资料的典型特点是只能记录“个数”,其结果在多数情况下只能是“整数”。比如A型血10人,男性15人等。根据各组之间是否存在“递进关系”,计数资料又可以进一步分为分类资料(比如:男/女性;汉/苗/回族等)和等级资料(比如:尿蛋白可以分为阴性/+/++/+++;治疗效果可以分为治愈/有效/无效)在医学科研中,对计数资料进行统计分析是无法回避的话。很多新手在处理此类问题时,往往容易选错方法,有的即使用对了统计学方法,也无法解释统计学结果的含义。笔者在此拟谈谈分类资料的统计学处理原则。由于四格表的统计分析在前一篇文章中已经得到了详细的阐述,在此就不再赘述了。仅仅谈谈2行或2列以上计数资料的处理原则。
案例1 性别与胰腺癌TNM分期的问题
假定某研究者欲研究性别与首诊胰腺癌TNM分期的问题,采用随机抽样的方式调查了108例男性胰腺癌患者和118例女性胰腺癌患者在首次诊断时的TNM分期情况。
在制作表格时,应遵循的原则是:分组因素作为横标目,效应量作为纵标目。当然,在具体的论文撰写过程中,应该首先将表格的“直观性”和“自明性”放在第一位,不应过于“教条”。在本研究中,性别是在出生时就已决定的,而胰腺癌的TNM分期是在后天发生的。所以研究目的只能是阐述性别是否影响首诊胰腺癌患者TNM分析,而不是首诊TNM分期是否会影响性别(这个问题听起来也太滑稽了)。所以在表格1中,性别因素是分组因素,是表格的“横标目”,TNM分期是效应量,是表格的“纵标目”。对于本组数据,有两种统计学方法可供选择,卡方检验和秩和检验(经过秩转换以后采用Mann-Whitney U检验比较),但两种方法的统计学结论和专业结论各不相同,甚至大相径庭。
若将TNM分期视为分类资料,即各个TNM分期之间无“高低强弱”之分,则可以采用卡方检验。当P<0.05时,对应的统计学结论是:男性和女性患者胰腺癌TNM分期的分布频数(或者说结构组成)不同;对应的专业结论是:性别可能影响TNM分期的频数分布。在英文文献中,对频数分布的描述一般用distribution、pattern、profile等词。
若将TNM分期视为等级资料,即Ⅱ期患者较Ⅰ期更advanced,则采用秩和检验,即将所有数据进行秩转换后采用Mann-Whitney U检验进行统计分析。假定男性的总秩次高于女性,当P<0.05时,对应的统计学结论是:男性患者的首诊TNM分期较女性患者高,即男性患者具有advanced TNM stage;而对应的专业结论是:性别是影响TNM分期早晚的因素。对于恶性肿瘤TNM分期早晚的描述,英文文献中常用的词语包括advanced、early/moderate/late等,带有明显的“矢量”特征。
由此可见,秩和检验的专业结论和卡方检验是不同的,体现在“频数分布”和“分期早晚”上。从统计学的角度而言,秩和检验提供的信息量要大于卡方检验,更符合研究者的研究目的。因为秩和检验不仅明确了“性别可以影响TNM分期”,而且还明确了“首诊男性患者具有advanced TNM stage”,这也许才是研究者最关心的问题。因此,在本案例中,秩和检验才是首选。
需要说明的是,曾有同行和笔者讨论过TNM分期到底是“等级资料”还是“分类资料”的问题。严格来讲,这是一个专业问题,而非统计学问题,对这个问题的认识可谓“仁者见仁,智者见智”。笔者认为,TNM是等级资料,理由如下:无数的预后研究表明TNM与胰腺癌患者的预后密切相关,换句话说TNM分期与疾病的严重程度相关,表现为“分期越晚,预后越差”。虽然TNM分期本身有很多种组合方式,在反映疾病预后方面也并不十分准确,有的晚期患者预后甚至好于早期患者,而且关于各个分期的定义在字面上并未呈现很清晰的递进关系,但只要在总体上能观察到“分期越晚、预后越差”这一现象,这就足以说明TNM分期是反映疾病严重程度的指标,带有“高低强弱”的属性,因而是等级资料。
另外一个需要注意的问题是:医学科研的任何数据统计分析,都必然牵涉一个“统计学结论向专业结论过渡”的问题。即先产生一个统计学结论(相同与不同、增高与降低),然后再根据实验设计将统计学结论向专业结论进行过渡。在进行结论过渡时,需要考虑的不仅仅是一个P值的问题,更需要考虑“差异的大小是否具有专业价值”。不论是卡方检验还是秩和检验,在得出专业结论前一定要仔细考虑“差异的大小是否具有专业价值”的问题。而从专业上讲,TNM之间的差异到底要达到多“大”才具有专业价值,是一个十分难以界定的标准,对该统计学结果的解读在很大程度上取决于作者的主观判断。在上述案例中,大多数学者可能会直接将统计学结论过渡到专业结论,而不管差异大小。该法虽然不太严谨,但实属“无奈之举”,同时也是较为保守的做法。
案例2 胰腺癌患者中某基因表达强度的问题
某研究者发现基因A在胰腺癌组织中的表达异常,因此向研究胰腺癌的TNM分期是否是影响基因A表达的因素。基因A的表达可以用“阳性”和“阴性”来表示。研究者调查了226例胰腺癌患者,其中108例患者A基因表达阳性,118例患者A基因表达阴性。
该表格在排列方式上与表1不同,分组因素是TNM分期,效应量是A基因的表达情况。之所以这样排版,主要是因为本研究重点是要明确TNM分期是否会影响A基因的表达,而非A基因的表达是否会影响TNM分期。从专业上来讲,前者更符合逻辑。因此,表格的横标目为TNM分期。对于这种数据的分析,也有很多方法可选择,但结论相差甚远。
直接采用卡方检验进行分析,若P<0.05,得出的统计学结论是:不同TNM分期患者A基因表达状况的频数分布(distribution)之间的差异有统计学意义;对应的专业结论是:TNM分期可能影响胰腺癌患者中A基因的表达特征(阳性还是阴性)。至于怎么影响?升高还是降低?卡方检验无法回答。
若将表格进行调整,得出如下表3,再进行卡方检验,若P<0.05,对应的统计学结论是:不同TNM分期患者A基因表达的阳性率(positive rate)之间的差异有统计学意义;对应的专业结论是:TNM分期可能影响胰腺癌患者中A基因的表达阳性率(positive rate)。然后根据各组阳性率,作者可以大致排列一个顺序,指出A基因阳性率在不同TNM分期的胰腺癌患者分期中从高到低分别为:Ⅳ期>Ⅰ期>Ⅱ期>Ⅲ期。若作者感兴趣,还可以进一步采用卡方分割法对各期进行比较,明确组间的差异是否具有统计学意义。就本研究来讲,笔者认为两两比较可能意义不大,故而不予比较。
这里需要说明的是,严格来讲,阳性率与表达水平完全是两个概念,在下专业结论的时候,不能将结论下为:TNM分期可能影响胰腺癌患者中A基因的表达水平(level)。通常而言,水平是一个连续变量,与率不同。我们可以通过以下例子来说明二者的关系:
假定基因的表达水平本身是可以量化的,其范围为0-100,检测值越大,则表示其表达强度越高。若实验组有100个样本,其中50个样本的表达水平为100,剩下的50个样本表达水平为50,因此实验组内基因的平均表达水平为75;对照组60个样本的表达水平为80,剩下20个样本的表达水平为0;因此对照组的平均表达水平是48。若比平均表达表达水平,实验组显然高于对照组;假定以60来作为划分阴/阳性的界值,实验组基因表达的阳性率为50%,对照组却为80%,对照组的阳性率显然高于实验组;假定以40来作为划分阴/阳性的界值,实验组阳性率为100%,对照组阳性率为80%,对照组的阳性率显然低于实验组。因此,阳性率在很大程度上受界值影响在将统计学结论向专业结论过度时,切忌偷换概念,将阳性率说成基因表达水平。
回到表3,若要明确表达强度高低的问题,需要对数据进行秩转化,然后再采用Kruskal-Wallis H检验比较各个TNM分期患者基因表达强度的差异。这里TNM分期可视为“分类变量”。从专业上来讲,将A基因的表达情况进行秩转换之后再比较不同TNM分期患者之间A基因的表达情况,显然信息量更为丰富,更符合研究目的。但是考虑到当人们用“阳/阴性”去衡量A基因表达时,已经极大地降低了统计效率,损失了很多统计信息,这样统计出来的结果很有可能不可靠,所以一般通过阳性率从侧面反映基因的表达强度。笔者认为:卡方检验和秩和检验均可用于此类数据的分析,只是在下专业结论时需要注意区分“率”和“水平”的问题。
在实际工作中,还可能用“高、中、低”的方式进行表达。比如某人欲研究A基因的表达与TNM分期的关系。
对于这种表格,也有很多种处理方式。
若将基因A的表达强度视为分类资料,直接采用卡方检验,若P<0.05,对应的统计学结论为:不同TNM分期患者A基因表达状况的频数分布(distribution)之间的差异有统计学意义。对应的专业结论为:TNM分期可能影响基因A的表达频数分布状况。至于怎么影响,升高还是降低,卡方检验无法回答。
若将基因的表达情况(高中低)视为有序变量,则需要对其进行秩转换,之后再采用Kruskal-Wallis H检验进行比较,若P<0.05,对应的统计学结论是:不同TNM分期患者A基因表达强度(intensity)之间的差异有统计学意义;对应的专业结论是:TNM分期可能影响基因A的表达强度。进一步根据各组的总秩次,可以明确各个TNM分期中基因A的表达强度,并根据需要判断是否有必要进行两两比较。与卡方检验相比,秩和检验可以明确表达强度高低的问题,对研究结果的描述更为深刻,因为更具有专业价值。
但是秩和检验还不是最佳选择!在本研究中,我们注意到:TNM分期和基因的表达强度都是“有序变量”,或者说都是“等级资料”,如果能明确二者是否呈线性相关关系,显然更符合研究的目的。因此本研究最恰当的统计学方法应该是线性趋势检验或者spearman秩相关法。
案例3 尿蛋白与血型
某研究者收集了126例肾病患者,研究了其尿蛋白水平(以等级资料表示)与血型是否有关,得出如下表格:
本研究中,尿蛋白是等级资料,但是由于是分组变量,我们可将其视为分类变量处理。血型属于分类资料,各个血型之间并无“强弱优劣”之分。研究目的旨在明确各个尿蛋白水平的肾病患者血型分布状况是否相同。此时就应选用卡方检验,若在上述表格中有1/5的格子(4个以上)理论频数小于5,则应该选用Fisher确切概率法。若P<0.05,对应的统计学结论为:各个尿蛋白水平的肾病患者血型分布特征不同;对应的专业结论为:尿蛋白与血型存在关联(association)。之所以不将专业结论下为“尿蛋白可能影响血型”,因为这个结论纯属无稽之谈。
表4的数据不变,但研究目的改变:旨在明确不同血型患者尿蛋白水平是否有差异,而非不同尿蛋白水平患者血型分布是否有差异。则表格应该重新进行组织,得出下表:
研究旨在明确各个血型的患者尿蛋白水平是否有差异。尿蛋白是等级资料,所以本研究不宜采用卡方检验(详见案例1),而应该进行秩转换之后以Kruskal-Wallis H检验分析比较各个血型的尿蛋白水平,并根据需要决定是否进行两两比较。若P小于0.05,则对应的统计学结论为:各个血型的尿蛋白水平有差异;对应的专业结论为:血型是影响尿蛋白水平的因素。若采用卡方检验进行统计,得出的结论就是“血型可以影响尿蛋白的分布状况(或者说结构比例)”。“分布状况(或者说结构比例)”和“水平”显然是两个完全不同的概念,研究各个血型的肾病患者尿蛋白水平的差异,显然更符合研究目的。
由此可见,相同的数据,研究目的不同,统计处理方式也完全不同,结论更是大相径庭。在对计数资料进行处理时,一定要仔细思考:研究的目的是什么(比较构成比还是强度的差异)?哪个变量更适合作为分组变量(试验因素)?在表4和表5中,二者的研究目的不同,分组变量也因此不同,采用的统计学方法更是不同,最终的专业解释更是相差甚远。
结语
统计服务于专业,抛开专业谈统计无异于缘木求鱼。对于每一种统计方法,我们应该在深入了解其“来龙去脉”的基础上,结合自己的实验设计特点和专业需要去选择最合适的统计学方法。兵无常势,水无常形,对统计学方法的选择一定要灵活,而不能教条,大多数统计学错误都源自于“在没有掌握来龙去脉的情况下,依葫芦画瓢地盲目套用统计学方法”。统计学最难的地方不在于“如何在软件中进行操作”,而在于从专业的角度出发选择合适的统计方法,然后将统计学结论恰如其分地过渡到自己的专业解释中。
笔者| 胡志德,AME学术沙龙委员、Section Editor (Systematic Review and Meta-analysis),工作于济南军区总医院实验诊断科,现为第二军医大学临床检验诊断学博士研究生,以第一作者或通讯作者身份发表SCI论文十余篇,并主持国家青年科学基金一项。
笔者|周支瑞,AME学术沙龙委员,在读博士。主要研究方向:恶性肿瘤放射治疗的放射生物学研究、恶性肿瘤放射治疗的循证医学研究、循证医学方法学研究。熟练掌握循证医学及临床流行病学基本概念及各种类型系统评价制作过程,熟练运用系统评价及统计学相关软件。目前以第一作者及共同作者发表SCI论文9篇,以第一作者在核心期刊发表论文3篇,参编学术著作一部(《实用循证医学方法学》第2版副主编)。担任丁香园网站循证医学讨论版版主,《Journal of Thoracic Disease》杂志的section editor,《Chinese Journal of Cancer Research》杂志、《中国循证医学杂志》审稿专家。
题图来自网络。