回顾性队列研究需要计算样本量吗(回顾性队列研究)
临床病例资料数据庞大、资源丰富,如果临床医生合理利用其进行临床研究,则可节约大量时间和经费,很快得出结论和成果。但已有临床病例资料往往存在基线数据不全、不详细,治疗方案不统一,随访间期不等,失访率高等问题,故需要良好的研究设计和统计分析来克服这些缺陷,才能得出可靠的结论。
临床研究根据有无人为设计的干预因素分为试验性研究和观察性研究,观察性研究又根据有无对照组,分为描述性和分析性研究,队列研究、病例-对照研究和横断面研究是常用的分析性研究设计方法[1]。除了不能进行试验性研究和前瞻性队列研究以外,现有临床资料可进行病例报道和病例分析,也可进行病例-对照研究、回顾性队列研究和横断面研究,故可设计的研究类型非常多。 例如<10例的罕见病可进行病例报道,≥10例可进行病例分析。
病因学研究多采用病例-对照方法进行设计,疗效评价、预后研究和病因学研究可采用回顾性队列研究设计,诊断试验评价可采用横断面研究方法。 由于回顾性队列研究应用范围最广,故本文重点介绍如何利用临床病例资料进行回顾性队列研究的设计和统计分析。
1 设计阶段需注意的几个问题
1.1 提出PICO问题
回顾性队列研究的基本步骤包括:
(1)明确研究目的,确立结局指标和研究因素,提出PICO(P:研究对象,I:干预或暴露因素,C:对照组,O:结局指标)问题;
(2)确定研究对象的纳入和排除标准;
(3)计算样本量;
(4)收集病例的基线资料;
(5)随访病例结局;
(6)进行统计分析,校正各种混杂因素;
(7)总结、撰写论文。
写出PICO问题非常重要,其可帮助研究者理清思路和明确研究目的。例如,研究A基因突变是否是急性髓系白血病复发的高危因素,P(研究对象)是某种类型的急性髓系白血病,I(暴露因素)是有A基因突变,C(对照组)是无A基因突变,O(结局指标)是白血病复发,在统计分析阶段需要校正的因素有年龄、白细胞计数、原始细胞计数、染色体核型、化疗方案等影响结局的因素。
1.2 基线数据缺失问题
针对基线资料不全的缺陷,在设计课题阶段可采用限制方法,即设立纳入和排除标准,把关键资料缺失的病例排除。为了样本有代表性,一般设立一个病例纳入的年限,如纳入2015年1月1日至2018年12月31日符合纳入条件的所有病例(连续样本),且排除标准不能太严格。如果排除的病例较多,最好进行一个缺失数据模式分析,如为完全随机缺失或随机缺失,删去缺失病例对结果的影响较小。也可比较纳入对象和剔除对象的基线临床特征,如无临床特征显著差异,则说明纳入病例的代表性较好,基本可以代表总体病例。
1.3 计算样本量
回顾性分析中只要有对照组,需要进行统计学分析、计算P值的研究都需要计算样本量,因为样本量太小,有可能得到假阴性的结果。样本量的计算取决于主要结局指标[2],例如研究某一疾病的缓解率、无进展生存率、总生存率的样本量是完全不同的,样本量依次递增。故研究中设计主要结局指标和次要结局指标很重要。
1.4 配对方法
队列研究中,可以把无暴露因素(或治疗方法)的所有病例作为对照组,也可在设计阶段采用配对方法进行对照组病例选择,例如进行年龄、重要的预后因素(疾病分期、亚型、并发症等)配对,根据不同疾病而定,使两组可比性较好。如果应用手工配对方法,一般配对的因素为2~4个,否则很难配到合适的对照组。如果应用一些统计方法进行配对,如下面案例应用的迭代扩展半径法(iterative expanding radius matching),可以适当增加配对因素。配对的比例一般为1∶1至1∶4,配对比例达到1∶4以后,再增加配对例数,统计效能增加不多。
表1 HLA不相合活体肾移植患者与配对对照组的临床特征比较[3]
图片来源于《协和医学杂志》
2 分析阶段需要注意的几个问题
在统计分析阶段可采用分层分析、多因素分析、倾向性评分等多种方法校正各种混杂因素,以明确研究因素是否为独立危险因素或预后因素。
2.1 分层分析
在分析阶段,对一些最重要的影响结局、预后因素进行分层分析,目的是观察消除该影响因素以后,两组结局比较是否有变化。例如上文中,对HLA抗体阳性的不同水平进行分层分析,发现不同抗体水平下,HLA不相合活体供体肾移植仍有生存获益。
图片来源于《协和医学杂志》
图 1去铁治疗和不去铁治疗对骨髓增生异常综合征患者生存期的影响[4]
A.红细胞输注量≤3 U/月; B.红细胞输注量>3 U/月
2.2 多因素分析
2.2.1 多因素分析方法
因影响结局的混杂因素较多,多因素分析可同时校正多个混杂因素,故其是队列研究中常用的统计方法。常用的多因素分析方法包括多元回归分析、Logistic回归分析、COX回归模型。当结局变量为连续变量时,选择多元回归分析。当结局变量为分类变量,同时又要考虑时间对该结局变量的影响(有时间变量),可选择COX回归模型。当结局变量为分类变量,不考虑时间变量时,可以选择Logistic回归分析。
2.2.2 多因素分析变量的选择
选择多因素分析变量时主要考虑临床意义,从文献或临床经验中确定需要进行校正的因素,即可能会影响结局的变量。如果样本量有限,要控制进入多因素分析的变量数量,可先通过单因素分析进行初步筛选,然后再纳入多因素分析。文献[4]的研究中,即采用先进行单因素分析,把单因素分析有统计学意义的变量纳入多因素COX回归分析的方法。而文献[5]则根据临床意义选择5个校正变量,未经单因素分析筛选,直接进行多因素分析。在临床研究中,可根据实际情况选择其中一种方法,或2种方法联用。
2.3 倾向性评分法
倾向性评分法可在分析阶段有效平衡非随机对照研究中的混杂偏倚,使研究结果接近随机对照研究的效果,故有学者称其为事后随机化法。其通过配对、分层、回归等分析方法来校正混杂因素,最常用的是配对法。与普通配对法不同的是,倾向性评分法可同时进行多个变量配对,而普通配对法的配对变量是有限的。
倾向性评分法能否很好控制混杂因素取决于纳入哪些协变量计算倾向分值,目前尚无公认的标准,但一般认为应纳入已知的、可能影响结局的所有混杂因素。
2.4 失访率问题
回顾性队列研究存在失访是不可避免的,一般要求失访率控制在10%之内,最多不能超过20%,否则会存在选择性偏倚,影响结果,故应尽量控制失访。如果有较多的病例失访,可进行敏感性分析,把失访病例的结局分别按照最差结局和最好结局计算,如结论无显著差异,认为失访对结论的影响较小,结论比较可靠。否则,结论的可靠性较差。
3 撰写论文规范
队列研究属于观察性研究,撰写论文时要按照观察性研究报告规范(STROBE)来进行论文写作。详细的STROBE声明清单见www.strobe-statement.org网站。在进行研究设计之前应先阅读该声明,按照清单上的内容进行设计,才能保证研究质量和论文质量。
4 小结
临床医生可以利用现有病例资料进行各种研究设计,根据不同研究目的选择不同研究方法,回顾性队列研究是常用的设计方法。两组不均衡可比,存在很多混杂因素是回顾性队列研究中比较突出的问题,可应用上述介绍的各种方法来校正混杂因素,同一研究中可同时应用多种方法进行校正。