医学科研论文中常见的统计学问题-ZSCI【官网】SCI论文翻译丨SCI论文润色丨基金标书修改丨免费论文评估丨期刊推荐

医学科研论文中常见的统计学问题

2018-08-21 来源：整理于网络

未交待清楚所用统计学方法

论文中所用的统计方法应在最后交待清楚。使用不正确的统计方法会得出错误的结论，所以统计方法交待不清或根本不予交待，会使读者对论文结论的正确与否无法判断。有的作者只提一句“经统计学处理”后就写出结论，有的甚至于直接用P值说明问题了事。正确的做法应写明具体的统计方法,如有特殊情况,还应说明是否采用了校正,这样才有说服力。严格地说,应写明精确的统计量值和P值,如t值、F值、χ2值等,不应笼统地以P>0.05或P<0.05代替。此外,最好能交待所使用的计算工具与统计软件名称。

不考虑统计方法应用条件每一种统计方法都有其适用条件。

在表示计量资料的平均水平时常用到平均数。然而平均数有算术平均数、几何均数和中位数,各有其应用条件。应用均数时,必须首先确定数据为正态分布。如果数据是偏态分布,仍用均数表示其平均水平势必导致错误的结论。对于偏态分布的数据,应该用几何均数或中位数表示其平均水平。

t检验要求样本来自正态总体,作两样本均数比较时还要求方差齐。如果不符合这些条件,则应考虑进行数据转换或用非参数检验;当两小样本均数比较方差不齐时,可采用t检验。例如临床研究中常涉及病人的病程,有的论文中病程5d至24年的平均水平和离散度为(311±613)年,这种标准差接近或大于均数的数据显然属于严重的正偏态,直接进行t检验,无疑是错误的。t检验不能用于三组或三组以上的组间比较,即使资料符合t检验的条件也是不行的。因为一则将原来的多组整体设计割裂,失去了总变异和总剩余误差,与原设计思想不符;二则损失了部分信息,降低了检验效率。

对于三组或三组以上组间的均数或分布的比较可以用以下方法:(1) 如果各样本来自正态总体,且方差齐,可用方差分析;(2) 如果各样本来自正态总体,但方差不齐,则可作数据转换,待方差齐后再用方差分析;(3) 如果各样本分布不清或分布不明,则可考虑用秩和检验。

在t检验中,把配对设计的资料作成组比较的t检验,是常见的失误之一。有的作者误将配对数据分为两个独立的组,分别设计两组各自的均数,并按两组均数作成组比较的t检验。这样使原来只有差值之间的变异扩大为“两个样本”各自的变异,错误地增大了标准差和标准误差,同时样本含量也从原来的对子数变成了“两个样本”的例数之和。其结果大多使t检验所得P值增大,可导致差异从有统计学意义变为无统计学意义。

卡方检验中的计算公式较多,各有其适用条件,稍有不慎,即有误用的可能,应根据实验设计和资料性质进行正确选择。常见的失误是:
(1) 四格表资料,当1<T(理论频数)<5,n(总例数)>40时,没有计算校正χ2值;(2) 四格表资料,当T<1或n<40时,没有选用四格表确切概率法;(3) 行×列表资料,由于例数太少,致理论频数太小,没有采有适当的处理方法,而是直接计算χ2值,导致分析的偏性。例如两组共计15例,就不宜用一般的卡方检验公式计算,应该使用确切概率法。

统计学基本概念不清

在作统计推断时,对样本例数有一定的要求,一般认为,样本例数太少,所得到的数值不稳定,不能轻易下结论。

统计学上,三组或以上的比较称为一揽子比较,在作这种比较时,应先将所有的组一起比较。在得出差别有统计学意义的基础上,再进一步作两两比较或多个处理与同一对照组比较。论文中常见的错误是将三组或以上组拆开分别作两两比较。正确的方法是:定量资料在方差分析P<0.05后,再用Q检验或Dunnett法作两两比较;定性变量在R×C表资料χ2检验P<0.05后,再作χ2分割法分析。

对于有序分类资料(即等级资料)的统计处理,在比较各处理组的效应有无差别时,宜用秩和检验、Rid2it分析或交叉积差法及等级相关法,但有些作者则误用卡方检验,此时作卡方检验只能说明各处理组的效应在构成比上有无差异。

对于“率”与“比”的概念不清,会导致将构成比误认为是发病率、患病率、死亡率。这三种率均为疾病统计指标,要做人群的流行病学调查才能得到。在临床疗效研究中,一般无法计算出这三种率。

相关回归分析

相关分析是分析自变量x与因变量y的关系,医学领域里完全相关(相关系数r=1或-1)的事件极少。

有作者将一组变量既作为自变量又作为因变量,r=1,认为有完全相关性,这说明对相关的概念还不十分清楚。不能把相关、回归关系直接看作因果关系。两事物间有数量关系,可能是因果关系,也可能不存在因果关系,而仅仅是伴随关系。

如果求得了两个变量间数量关系的回归方程式,或算出了r,在做结论之前,应先作统计检验;若P>0.05,此回归方程并无实际意义。r的实际意义如何,还要看r绝对值的大小,因r的统计学检验,不论P值多么小,只能提供两个变量是否相关的信息,却不提供相关是否密切的信息。相关的密切程度常以r的数值大小为指标。r的绝对值越接近于1,两变量的相关关系越密切;越接近0,越不密切。r的平方即r2(决定系数)也可表示因变量y与自变量x的关系密切程度,如果r2=0.22 =0.04,说明因变量y的变异中仅有4%与x有联系;此时若P<0.01,仍不能认为两者“明显相关”。

统计说法不严格

统计学上对差异作是否有显著性意义的推断与日常生活中对差异作是否显著的推断完全是两个概念。主观感觉两个样本均数间的差异并不显著而统计学上作出差异有显著意义的推断,主观感觉两个样本均数间的差异很大而统计学作出其间差异无显著意义的推断都是有可能的。既往所用的“差异显著”、“差异非常显著”等字句,容易与日常生活判断的字句相混淆,故现在一般认为用“差异有或无统计学意义”较为清楚明白。

对于假设检验的结果,不仅要恰当的解释、正确地分析,还要准确地予以表达。差异有无统计学意义,在检验水准α=0.05时,一般是以P>0.05或P≤0.05为界线,有作者的结果为P>0.01,由此判断差异无统计学意义,但P>0.01不一定就是P>0.05,也可能0.01<P<0.05,只有在P>0.01同时也>0.05,才能判断为差异无统计学意义。还有作者的假设检验结果为P=0.100000,虽然不能说是错误,可是不符合习惯用法。

数据统计不准确

文内所给出的各种数据及统计要准确无误,不能前后有别。有论文的文题是45例患者,而在统计表中相加为47例,但讨论中又说是46例,究竟是多少例患者似乎论文作者自己也说不清,只好退修。对于相对数,当例数较少时,一定要有相应的绝对数,如有的组只有4例,治愈2例,即报道治愈率为50%,这显然是不妥的。在计算构成比或有些率时,一定要注意合计必须是100%,有的时候因为四舍五入,合计为99.18%或100.11%,此时要作调整。严格地说,要按有效数字的运算法则“四舍六入,逢五前位奇进偶舍”计算。数据错误多,说明作者缺乏严肃认真的科学态度。

统计表不规范

统计表的设计合理与否,对论文的质量和科学性有重大的影响。统计表存在的问题主要有:(1) 表题过于简略,甚至不写表题;或过于繁琐以及标题不确切；(2) 标目过多,层次不清；(3) 线条过多；(4) 表内同一指标的小数位数不一致。

表题应扼要说明统计表的内容, 一般不宜超过15个字。横标目说明各横行数字的涵义,纵标目说明各纵列数字的涵义,必要时在横、纵标目上可冠以总数目。通常把主语置于横标目,谓语置于纵标目。表的线条宜少勿多,常用三线表;除顶线、底线以及隔开纵标目与数字的横线外,其余线条均可省去,绝对不要用竖线,特殊情况下加辅助横线。表内数字一律用阿拉伯数字,同一指标的小数位数应一致,位次对齐。统计表强调以最小的篇幅说明最多的问题,避免一切不必要的线条与数字、符号和脚注,力戒繁琐,且勿堆累。若用简洁的文字已能说明问题,则尽量不用表。如用了统计表,则文中不宜再完全重复其数据,只需强调或描述其主要发现。同一资料,还要避免统计表与统计图之间的重复。

“医学科研论文中所存在的统计学失误,大部分并非是深奥的数学问题,相当部分甚至是些统计学基础知识。只要我们打下扎实的医学统计学基础,就能减少统计学的失误,进一步提高论文的质量。

上一篇国自然基金标书写作方法

下一篇巨大福利：SCI综述论文最容易写？怎么写？

联系我们

官方QQ群：706227459
官方网站：www.keyanzhiku.com
服务邮箱：marketing@keyanzhiku.com
客服QQ：1745693101
微信公众号

微信扫一扫

关注该公众号