作者简介:曹 越,博士,助理研究员。
随机对照试验(randomized controlled trail, RCT)作为检验疗效的金标准, 侧重对理论疗效进行评价, 但临床实践时还需参考干预措施在真实世界中的实际效果。真实世界研究(real world study, RWS; real world research, RWR)是近年兴起的一种新的研究理念, 其与RCT在研究设计与具体实施环节上存在差异, 二者并非替代而是承启关系。精心设计的RCT是评价临床干预措施的基础, 其结果需RWS的进一步验证及拓展补充, 以评价临床干预措施在实践中真实的效益、风险和治疗价值, 综合考虑二者才是最佳选择。注册登记研究(registry study)与大数据临床研究(big-data clinical trial, BCT)是实现RWS的重要手段。
循证医学强调证据分级, RCT及其系统评价/Meta分析常常被认为是评价干预措施的“ 最佳证据” , 并用于指导临床实践, 但近年愈来愈多的专家指出来自RCT的结果在外推上存在局限[1, 2]。
RCT关注效力研究, 强调对研究对象的纳入和干预措施的选择采取严格标准, 并通过随机、对照、盲法等手段排除可能影响试验结果的偏倚, 以评价干预措施在理想状态下所能达到的最大期望作用[2, 3]。因此, RCT通常要求研究对象患单一疾病, 采用单一干预措施或标准治疗, 但实际临床实践往往较为复杂, 研究对象通常罹患多种疾病, 同时接受多种治疗, 致使RCT的代表性与外部真实性存在一定差距[1]。如, Brett等[4]发现, 大多数比较冠状动脉搭桥手术(CABG)与冠状动脉介入手术(PCI)治疗冠心病疗效的研究, 纳入人数往往不到筛查患者的10%。而在一项关于吸入性糖皮质激素(ICS)的RCT中, 对研究对象进行正确使用吸入装置的培训与指导贯穿试验始终, 以避免因吸入装置使用不当造成的潜在偏倚[2]。但最近一项针对3654例哮喘患者的调查指出, 85%~90%的患者在面对不同种类的吸入装置时会犯至少1个潜在的操作错误, 70%的患者会犯多个潜在的操作错误, 揭示与参与RCT的研究对象相比, 在实际医疗环境下的患者往往并没有接受相对专业的吸入装置使用的培训与指导, 极大程度上限制了ICS在真实世界的治疗效果[5]。
由此可见, 在RCT框架下的“ 标准化干预” 是为了控制诸多混杂因素而构建的理论上的标准化, 而非临床对患者的“ 标准化治疗” 。故尽管RCT具有毋庸置疑的内部有效性, 但其严格设计的“ 理想干预过程” 亦削弱了试验结果与真实世界的相关性, 所得结论并不能轻易进行外推[6]。为向医师、患者和卫生决策者提供科学且全面的医疗决策证据, 除理论疗效外, 还需提供这些干预措施在“ 真实世界” 中的实际疗效[7]。在此大背景下, 重视开展真实世界研究的理念逐渐得到医药界的认同与支持。
RWS源于实效性临床试验, 是指在较大样本量(覆盖具有代表性的更广大受试者)的基础上, 根据患者的实际病情和意愿非随机的选择干预措施, 并开展长期评价, 重点关注有意义的结局指标, 以进一步评价干预措施的外部有效性和安全性[3]。RWS涵盖范围较广, 除可治疗性研究, 亦可用于诊断、预后、病因等方面的研究[3]。
RCT多用于药物上市前研究, RWS关注效果研究, 即评价干预措施在真实临床环境下所能达到的作用大小, 属于药物上市后研究。同时RWS还可以用于评价不同医疗卫生干预措施的成本效益[3]。例如, 吉西他滨(GEM)被认为是治疗晚期或转移性胰腺癌的最佳治疗措施, 近年有研究显示, 与GEM单独使用相比, 吉西他滨与埃罗替尼联合使用(GEM-E)可在一定程度上延长患者生存时间。据此Shin等[8]经韩国国民健康保险数据库开展回顾性研究, 结果发现两种疗法在总生存期与一年生存率上差异并无统计学意义, 且在成本效益上, 接受GEM-E治疗的患者平均开销显著高于GEM组。
RCT的纳入与排除标准较为严格, 一般排除特殊人群及病情严重、合并症较多的复杂病例, 强调纳入同质性好的患病人群[3, 9]。最近一项研究显示, 45%经医师诊断为慢性阻塞性肺病的患者并不符合传统临床试验的纳入标准, 并指出年龄较小、女性、非白种人, 以及患有糖尿病或抑郁症的患者往往被排除于RCT之外[10], 导致研究所包含的患者与全体患病人群存在差异, 一定程度上限制RCT外推性。而RWS恰好弥补了RCT的缺陷, 其通过宽泛的纳入标准和较少的排除标准, 使受试对象在极大程度上与试验结果外推人群保持一致, 以达到减少选择性偏倚的目的[3, 9]。如, 由美国马萨诸塞大学医学院发起的全球急性冠脉事件注册研究(global registry of acute coronary events, GRACE)即不考虑患者的入选条件, 真实记录了不同地区、不同等级医院在实际工作中对急性冠脉事件的处理方法与处理结果[11]。
根据受试者损害最小化原则, 为避免过多受试者接受可能疗效较差的治疗或发生不良反应, 伦理学要求在实施RCT前需按确定的检验效能和信度估计最小样本量[3]。然而值得注意的是, 即使研究设计和实施过程完美, 也可能存在由于样本量过小而无法准确回答研究问题的情况。Hannan等[12]指出, 既往开展的CABG与PCI长期疗效比较的RCT样本量普遍较小(123~1205例), 所得结果亦模棱两可, 其认为无法确定是否CABG与PCI确无差异还是由于样本量小使结果产生偏倚。据此, 该团队通过纽约两大心脏疾病登记系统纳入37212名1997-2000年接受CABG或PCI治疗的患者, 结果发现CABG组患者经风险调整后的生存率高于PCI组, 而血管再生率显著低于PCI组[12]。由此可见RWS采用较宽泛的纳入标准, 尽量覆盖广泛患者人群的设计思路, 使其样本量远远超过RCT, 并在大样本基础上进行亚组分析比较, 使结果更具说服力。目前, 关于RWS所需样本量大小尚无统一标准, 但根据现有RWS来看, 绝大部分研究选择了较大的样本量(> 500例), 以保证具有良好的代表性[6]。但也有个别研究采取了相对较小的样本量, 如Magliano等[13]关于心理教育家庭干预对精神分裂症患者影响的研究仅选取了71名受试对象, 但这些受试对象由来自意大利17家公共心理卫生中心的34名心理医学专业人员确定, 对有如酗酒、药物滥用和身体疾患等其他并发情况的患者也未排除, 因此可认为, 样本人群基本代表了意大利精神分裂症患者人群。
为避免受试者长期接受疗效较差的治疗, 大多数RCT研究持续时间较短, 因此未考虑服药依从性等因素对疗效的影响。既往研究证实ICS是控制哮喘的最佳方式, 然而这些RCT持续时间为12~28周, 无法反映ICS的长期疗效, 近年有研究对ICS与白三烯受体拮抗药(LTRA)进行真实世界研究, 随访2年后发现在主要终点指标— 哮喘生活质量量表(AQLQ)得分上差异无统计学意义, 更有意思得是, 在服药依从性上LTRA组患者依从率(65%)显著高于ICS组患者(41%), 推测原因可能是LTRA为口服药物, 使用方便, 在实际医疗环境中更易受到患者的青睐与依从, 从而提升其治疗效果[2]。可见, 由于RWS一般进行较长的临床观察与随访, 更易反映出新药及治疗措施的远期效应及其不良反应, 对健康结局有全面且较好的评价[3]。
RCT采用随机分配方法, 对受试者实施单一干预措施或单一用药, 而在RWS中则是根据患者实际病情和用药意愿选用药物或其他干预措施, 这是RWS与RCT在试验设计上最大的区别, 同时在RWS中研究者也不对合并用药及用药条件进行限制, 完全按照实际需要进行治疗并给予观察和记录, 力求还原最真实的临床实践, 因此RWS可以说是一个非随机、开放性、不使用安慰剂的研究[3, 14]。Krzyzanowska等[15]通过对美国国家癌症研究所(NCI)发起的SEER项目数据资源进行整理, 纳入1991-1996年该数据库注册登记的1696例经病理诊断为局部晚期胰腺癌的患者, 并根据数据库记录的真实治疗状况将患者分为放化疗联合治疗组、放疗单一治疗组、化疗单一治疗组以及无治疗组, 结果显示上述4组调整后的中位生存期分别为47周、29周、27周与15周, 其中接受联合治疗的患者中位生存期与既往RCT 36~49周的结果差异不大, 反映放化疗联合治疗具有良好的内、外部有效性。尽管如此, 仅有24%的患者接受了联合治疗, 年龄、经济条件、家庭住址等非疾病因素往往是影响治疗接受状况的主要因素。
RCT结局测量多以一个或一些特定病症或体征为评价指标, 而RWS结局测量多采用有广泛临床意义的指标, 如病死率、复发率、伤残程度、生活质量等, 因此更具临床应用价值[14]。如, 在一项比较ICS与LTRA治疗哮喘的真实世界研究中, 主要终点指标即为哮喘生活质量量表(AQLQ)[2]。RCT与RWS在数据采集与统计分析方面无本质差异, 但相比RCT, RWS往往要求研究者收集更多、更全面的信息, 除基本的社会人口学统计特征、患病史、发病时间、临床表现、治疗以及院内结局相关信息外, 部分研究还通过使用病例报告表(case report form, CRF)收集患者出院后的随访资料, 以获得远期结局相关信息[11]。RCT主要采用Fisher检验、χ 2检验、ROC曲线、log-rank检验、Kaplan-Meier生存曲线等统计方法; RWS因影响因素较多, 除上述方法外, 还常用多因素分析、倾向评分、工具变量等方法控制混杂因素的影响[3, 9]。
高质量的RCT往往在研究过程中通过随机分配、盲法、标准化治疗或安慰剂等措施对已知、未知或未观察到的混杂因素进行调整。但RWS则不然, 其根据患者实际病情和用药意愿选用药物或其他干预措施, 更为贴近真实医疗环境, 不存在外推困难的问题, 结果相对真实可靠, 但也因“ 开放性” 产生了明显的观察者偏倚。对此, RWS通常采用多因素分析、倾向评分等统计方法控制偏倚, 然而上述这些方法仅能对已知的混杂因素进行调整, 而对未知或未观察到的混杂因素则难以控制[16]。
RCT在实施过程中可能会涉及多方面的伦理问题, 如前所述, 为避免过多的受试者长期接受可能疗效较差的治疗, 导致RCT在研究时间、样本量等方面受到一定限制。而RWS则不尽相同, 从本质上说, RWS是在真实医疗环境下, 对具体医疗干预和实际操作手段最终结果的评估, 并不存在干预等问题, 故伦理学原则上不会对研究时间、样本量等因素进行较多制约[3]。
RWS强调采用流行病学理论和方法进行观察性研究、横断面研究或队列研究等, 其中属观察性研究的注册登记研究在临床实践中运用尤为广泛。
注册登记研究为实现研究预期目的, 运用观察性研究方法, 前瞻性或回顾性地收集既定项目的临床数据或其他相关数据, 进行合理的分析统计, 据此评估某一特定疾病、特定受试产品或特定医疗服务的特定效果或结局。在注册登记研究中, 研究者需根据其预期目的, 收集注册病例人口学特征、患病史、发病时间、临床表现、治疗结局相关信息, 甚至需要获取特定的有关远期结局信息。为保证信息的真实、完整, 需要在方案设计、计划实施、数据采集、管理和分析上都有严格控制规范[17]。因此, 设计和实施良好的注册登记研究应能全面反映临床真实情况。另一方面, 由于多数RWS采用大样本、多中心的设计, 观察时间较久, 干预措施往往随受试者病情或自身意愿发生变化, 致使RWS资料的收集也离不开完备的注册信息与数据库。
网络数据库是注册登记研究的核心[18], 在前文介绍的真实世界研究实例中, 大部分研究数据即来源于注册登记研究所构建的网络数据库。例如, 全球急性冠脉事件注册研究(GRACE)涵盖30多个国家265家医院, 该研究通过病例报告表(CRF)收集急性冠状动脉综合征(ACS)患者的临床特征、治疗情况, 以及出院后预后情况并构建相关数据库, 以反映不同地域、不同等级医院在处理ACS患者的决策和效果[11]。又如在探讨放化疗联合治疗局部晚期胰腺癌效果的研究中, 患者信息来源于美国国家癌症研究所(NCI)发起的SEER项目数据库, 该项目由11家肿瘤注册登记中心参与, 覆盖全美将近14%的公民[15]。
注册登记研究因多数情况需多中心及多方合作, 其最大优点为可在较短时间内, 集合某个领域内的相关数据, 有时甚至可以在全球医疗资源范围内对数据进行整合[19], 这些海量数据已成为医疗卫生领域“ 大数据” 的重要组成部分。同时, 随着信息技术的发展, 来自于病案首页、医院信息管理系统、医疗保险数据库等数据资源亦成为推动医疗卫生领域“ 大数据” 发展不可或缺的渠道[16]。考虑到这些数据均直接来源于临床信息系统, 被认为可以反映临床实践的真实情况, 因此BCT正逐渐成为RWS研究手段之一。
综上所述, RCT与RWS并非对立或替代关系, 而是互补与承启关系。RCT是评价临床干预措施的基础, 提供干预措施有效性和安全性信息, 若不以RCT结果作为前提, 任何外部有效性的结果都将受到质疑。以RCT为基础制定相应指南, 使新的临床干预措施真正应用于临床。但指南仅是推荐, 不能替代临床经验, 因此需RWS作为有效补充, 以评价新的临床干预措施在临床实践中真实的效益、风险和治疗价值, 使临床研究的结论在RCT后回归真实世界。
The authors have declared that no competing interests exist.