33.1 计划生育临床研究
33.1.1 医学研究和临床研究的分类
33.1.2 常用计划生育临床研究方法介绍
33.1.3 临床前研究
33.2 计划生育临床研究的统计分析
33.2.1 统计设计基本框架
33.2.2 常用研究设计样本量计算和主要统计指标
33.2.3 统计分析
临床试验(clinical trial)是指在研究者控制的条件下,开展药品、试剂、器械等对人群疾病或健康问题的安全性和有效性的试验性研究。1999年我国国家药品监督管理局发布并实施的GCP管理规范将临床试验具体定义为:“任何在人体(病人或健康自愿者身上)进行的药品系统性研究,以证实或解释研究药品的作用、不良反应及(或)药品的吸收、分布、代谢和排泄,目的是确定研究药品的疗效与安全性”。在2003年修订的《药品临床试验管理规范》(以下简称GCP规范)里,这一定义得到了保留。参加临床试验的受试者可以是健康人,也可以是患者[国外通常将参加临 床 试 验 的 研 究 对 象 称 为 志 愿 者(volunteer),国内一般称为受试者]。选择什么样的受试者参加试验要根据试验的目的而定。多数临床试验的受试者是患者,目的是考察新药有无疗效和不良反应。由于参加试验的对象是人,临床试验最重要的一点就是必须符合伦理要求,必须尊重受试者的人格及其利益,只有在这种前提下才能开展临床试验。精心设计和实施的临床试验是提高人类健康,寻找新的治疗药物和方法的最好途径,也是新药研制和接受过程中必不可少的阶段,计划生育药具和技术也不例外。
33.1 计划生育临床研究
33.1.1 医学研究和临床研究的分类
图8-33-1简要概括了医学研究的分类。医学研究主要包括实验研究和观察性研究。实验研究是在非人体上进行,如各种动物模型、标本、细胞、细菌、病毒等,实验研究通常又称为临床前研究。
观察性研究是在人体上进行,属于临床研究。根据研究对象纳入的完整性,观察性研究又可分为普查法和选择性抽样。
(1)普查法:顾名思义,就是将所有的目标人群都纳入观察。但这种方法非常罕用,这是因为,一方面目标人群往往难以穷尽;另一方面这种方法耗时、耗力、耗钱。根据现代统计学原理和方法,通过对目标人群的合理抽样,可以通过样本推断总体,还可以估算总体的可信区间。在临床研究中,普查法往往没有必要。
图8-33-1 医学研究分类简图
(2)选择性抽样:就是从目标人群中选择一个合理样本进行临床研究,其常见的研究设计有临床试验、队列研究(cohort study)、病例对照(case-control study)、现况研究(cross-sectional study)以及个案/系列病例报告(cases/series case reports)等。每一种研究方法还可以再细分,如按药物审批过程可分为Ⅰ、Ⅱ、Ⅲ、Ⅳ期临床试验,按是否随机、是否有对照可分为随机对照(randomized controlled)、非随机有对照(non-randomized controlled)、无对照临床试验;按 队 列 建 立 时 间 可 分 为 前 瞻 性(perspective cohort study)、半前瞻性(semi-perspective cohort study)和 回 顾 性(retrospective cohort study)队列研究;病例对照也有1∶n配对病例-对照研究(matched case-control study)和巢式病例-对照研究(nested case-control study);以及不同抽样方法的现况调查,如系统随机抽样、分层随机抽样、整群随机抽样现况调查等。下节将详细描述计划生育临床研究常用的设计方法。
文献研究是对原始研究的二次加工,包括一般叙述性综述和系统综述。原始研究主要来源是观察性研究。虽然文献研究是非原始研究,但系统综述所获得的证据强度处于证据金字塔等级的顶端,为最高级。一般的叙述性综述由于方法学不严谨等问题的可能性较大,其证据强度显然较弱。
33.1.2 常用计划生育临床研究方法介绍
常用计划生育临床研究方法主要包括临床试验、队列研究、病例-对照、现况研究及个案/系列病例报告等。
33.1.2.1 临床试验
从方法学上划分,临床试验可分为随机对照临床试验(RCT)、非随机对照临床试验和无对照临床试验。从药物的研发和审批过程角度划分,通常临床试验分为Ⅰ期、Ⅱ期、Ⅲ期和Ⅳ期。本节首先对临床试验的方法学进行描述,然后简要介绍药物研发和审批所要求的4期临床研究。
(1)RCT:即采用随机分配的方法,将符合条件的研究对象分别分配到试验组和对照组,然后接受相应的试验措施,在一致的条件下或环境里,同步进行研究和观察试验效应,并用客观的效应指标对试验结果进行测量和评价。RCT研究流程参见图8-33-2简示。
RCT试验中的随机、对照和盲法
1)随机:是指每个受试者具有相同的机会进入试验组和对照组接受相应的试验药物/处理。目的是防止人为的主观因素干扰试验结果,使得研究组和对照组除试验因素外的其他因素在两组中均衡,以控制混杂因素对研究结果的影响。即便随机化没有使各个处理组间的干扰因素达到均衡,在资料分析阶段可以利用适当的统计方法调控可测的混杂因素。但是,不可测的因素所产生的混杂不能被调整。
图8-33-2 平行设计随机对照临床试验流程图
在有对照试验中,随机分配受试者是确保试验组和对照组可比性和减少产生选择性偏倚的较好方法。常用随机分组方法包括以下几种。
● 简单随机法:用随机数字表或计算器或计算机产生随机数字,除以分组数,根据余数进行分组。例如,如果研究设计仅考虑分试验组和对照组两组,在用随机数字除以2,余数只能是0或1,可以事先规定余数为0者分配到试验组,余数为1者到对照组。反之亦可。一般医学统计学教材附有随机数字表。许多统计软件,如SAS、SPSS、STATA等也可产生随机数字。一种比较简单的方法是利用Office软件中Excel表格的Rand或Randbetween(n,m)程序,可以产生0~1,或n~m之间的随机数字。
● 区组随机法:将研究对象编成含一定数目的一个个小组(block,区组),每个区组作为一个随机单位进行分组。这种随机方法常用于多中心临床试验,其优点是有利于维持各组数量上的平衡。每个区组内各处理组分配的数量可以相同,也可以不同,可视研究需要而定。一般区组大比小好,区组小容易预测下一个受试者接受什么处理,区组大就不那么容易预测。
区组随机法示例
某临床试验计划招收600名受试者,随机分成3组,一组为试验组,另设2组对照组,采用不同的对照药品。计划每个研究组招收受试者200名。采用随机区组设计,每个区组3人,3个研究组各1人。STATA软件编制的随机区组程序及其解释如下:
set obs 600(拟随机分组的受试对象)
gen no=_n(产生受试对象的序号)
set seed 8975467(设定产生伪随机数的种子数)
gen block=int((_n-1)/3)+1(产生区组序号)
gen a=uniform()(产生均匀分布的随机数)
sort block a(对每个区组内随机数排序)
bysort block:gen group=_n(产生每个区组内序号)
lab define group 1“试验组”2“对照组1”3“对照组2”
lab values group group
sort no(重新按受试对象排序)
drop a(删除中间变量)
list no block group(打印随机分组方案)
程序输出结果如下(仅列出前60名受试者编号),区组号(1~200),随机分配的研究组别(试验组、对照组1、对照组2)(表8-33-1)。
如果上述试验在10家医院进行,每个医院招募60例受试者,随机分配到三组,每组20人,可试用以下STATA程序。
set obs 600(产生600个对象编号)
egen id=seq()(let the id=sequence)
egen hospital=seq(),b(60)(产生hospital(医院)编号)
gen b=int((_n-1)/3)+1(创建区组(block))
set seed 1 000(产生随机种子数)
gen r=uniform()(产生随机数字)
sort b r(将研究对象分配到各医院)
gen g=(mod(_n-1,3))+1
tab hospital g(输出结果)
表8-33-1 区组随机设计STATA程序输出结果
SAS、SPSS等软件也可实现如上述计算机辅助随机分组,读者可根据所拥有的软件和知识选择性使用,也可请有经验的流行病/卫生统计专业人员协助。
开展RCT研究时,需要注意随机化的隐匿性,以防止随机化方法的“不彻底”,导致对象分组可以“猜中”。大型多中心RCT采用中心电话随机分组系统。中小型RCT可用药剂师控制随机分配方案,也可将随机分组编号装入避光信封密封,当接受研究对象时,对号启封入组等。
2)对照:是指RCT研究中未使用干预措施或测试药物的研究对象。这是RCT研究的另一个重要特征。使用对照的目的是将受试干预措施或药物给研究对象带来的结果如症状、体征、其他病状改变与其他因素如疾病的自然进程、观察者和患者的期望、其他治疗措施等造成的结果区分开来。
常用的对照有以下几种:空白对照、安慰剂同期对照、活性药物同期对照、量效关系同期对照、前后对照、历史对照。
● 空白对照:即对照组不使用任何药物和措施。由于空白对照产生观察、测量偏倚的可能性较大,Ⅲ期临床试验一般不采用。为避免这些情况的产生,可用外观与试验药物完全相同,但不含任何活性成分的安慰剂对照。
● 安慰剂同期对照:使用安慰剂同期对照的优点是:能可靠证明药物的疗效;检测“绝对”安全性,区分不良事件是否由于“背景噪声”所致;效率高,只要较小样本量就可以检测出疗效。
但安慰剂同期对照缺点也很明显,如伦理问题,只限于特定人群小样本的短期试验;患者和医师的实际顾虑。如果患者认为分配至安慰剂组可能会退出试验。
● 活性药物同期对照:为克服安慰剂同期对照的缺点,特别是伦理问题,可以采用活性药物同期对照。所用的活性对照药物必须是得到管理部门批准的对试验的适应证确有疗效。活性药物同期对照的优点是:减少伦理的顾虑,打消患者和医师的担忧;可进行大样本的试验,能提供更多的疗效和安全性方法的资料。活性药物同期对照也有一些缺点,如不能直接评价绝对作用大小;样本量可能很大。
● 量效关系同期对照:即比较不同剂量药物的有效性和安全性,如比较米非司酮25mg与10mg用于紧急避孕的有效性和不良反应研究就属此类。
● 前后对照和历史对照:顾名思义就是将研究对象参加试验的前后数据进行比较,或试验数据与既往资料进行比较。由于对象的可比性相对较差,特别是受试者特征可随时间产生变化,一般情况下不用,在特殊情况下也可能采用,例如,有比较可靠的公认的结局作为参考时。
3)盲法:是指研究人员、受试对象乃至资料分析人员都不知道哪一组是研究组,哪一组是对照组。以最大程度上保证研究结果不受人为因素影响。为保障RCT研究的客观公正,盲法往往与随机方法结合使用(表8-33-2)。
表8-33-2 RCT研究质量评价Jadad量表
盲法又可分为单盲、双盲、三盲(也有研究者将三盲视为双盲的一种)。单盲通常是指仅受试对象处于盲态。双盲是指受试对象和研究执行人员均处于盲态。三盲是指受试对象、执行人员及数据分析人员均处于盲态。我国GCP规范将三盲归于双盲中。
盲法最大的优点是降低观察和测量偏倚,也就是保证了研究的客观和公正。但在紧急情况下,有时需要揭盲,特别是当受试者出现严重不良反应时,无论该反应与受试药物是否相关,均需揭盲。揭盲的程序在研究设计阶段就应该考虑。
不是所有的RCT都能做到盲法。例如,比较男用避孕套与女用避孕套的有效性、安全性和可接受性,研究者和受试者肯定会知道采用何种方法。这种情况下,最好让随访人员不知道受试者采用了哪种避孕套(表8-33-2)。
连续处理设计RCT:是将受试者随机分配到试验组和对照组中,每个受试者接受不止一种处理,每一组的处理顺序都是事先设计好的。这种设计最常见的形式是二阶段连续处理设计,特点是一种处理结束后,经过一段无处理时期(洗脱期),以使第一种处理的残留效应(carry-over effect)消失,再接受第二种处理。这种设计常见两种类型:一种称为转换设计;另一种称为交叉设计。
在转换设计RCT中,受试者从处理A转到另外两种处理(如处理B和处理C)中的一种,其流程如图8-33-3所示。印度尼西亚曾做过一项RCT研究,比较标准剂量口服避孕药使用者转换成两种低剂量口服避孕药后的突破性出血等短期不良反应。该研究即采用了转换设计的方案。
图8-33-3 转换设计RCT
在交叉设计RCT中,第一组受试者第一阶段接受处理A,第二阶段接受处理B。第二组受试者接受处理的顺序正相反,第一阶段接受处理B,第二阶段接受处理A。其流程如图8-33-4所示。
图8-33-4 交叉设计RCT
由此可见,连续处理设计是将自身比较与组间比较设计思路综合应用,可以控制个体间差异,同时减少受试者人数,随机分组可避免人为的选择性偏移。然而,在很多情况下,由于同一个受试者要在不同设计阶段接受不同处理,导致这种设计不适合,甚至不可能。例如,外科手术一般不适合连续处理设计,任何以妊娠或死亡作为结局的临床试验也不能采用这种设计。另外,连续处理设计还有其他一些缺点,如用药周期较长,失访、退出、依从性降低概率增加。第一阶段退出的受试者就不能用于第二阶段的评估。为了减少退出,研究者通常将连续处理设计的研究时间定为3个月甚至更短;若患者的症状不复发,第二阶段开始时间可远远超过洗脱时间,研究周期延长;个体前后数据相关,增加数据分析的复杂性。
多中心RCT:在临床试验中,由一个或多个主要研究者总负责,多个单位研究者合作,按同一个试验方案同时进行的临床试验称为多临床中心RCT。多中心RCT是被大家所接受的高效评价新药的研究方法,也是在某些情况下,在有限时间内收集足够多的研究对象的唯一方法。多中心RCT可为研究结果的推广与应用提供良好的依据。有时为使新药应用地域更广,试验可在一些不同的国家进行。
与在单个中心开展RCT比较,开展多中心RCT研究有一定复杂性。例如各中心试验组和对照组的比例应与总样本的比例相同,以保证各中心齐同可比;方案必须统一、方法标准化、统一培训,试验过程要有监控措施。当主要变量可能受主观影响时,必要时需进行一致性检验;要尽量使各中心间不均一性最小。如各中心各处理组的受试者分布尽量相同,避免各中心例数相差悬殊以及个别中心的病例数太少;当各中心实验室的检验结果有较大差异或参考范围不同时,应采取相应措施,如统一由中心实验室检测、进行检验方法和步骤的统一培训和一致性测定等。
因此,RCT研究的优点主要为:随机化是已知控制选择性偏倚的唯一有效方法;随机化能平衡处理组之间潜在的混杂因素,数据统计分析简单;RCT允许对受试者纳入标准、暴露和结局评价指标的标准化;由于已经控制了混杂因素,RCT设计的把握度不会下降很多,从而提高了统计效率;试验组与对照组同期比较,外部时间和环境等因素对两组的影响相同,对结论影响小。
但是RCT研究也存在一些缺点,如RCT研究的设计和实施比较复杂,且费用较高;受试者为自愿参加,导致研究对象与一般人群或目标人群的特征上有质的差别,从而影响了研究结果适用广度和深度;RCT研究受到医学伦理的限制;有时RCT设计不能实行。
RCT研究示例
[案例1]人工流产后即时放置3种IUD安全性和效果的随机对照研究。(邹燕等,“十五”期间人口和计划生育科研成果论文汇编,2011.148~151)
✧ 研究设计:多中心RCT
✧ 对象纳入标准:孕8周内负压吸宫术后即时自愿放置IUD,且月经正常,血红蛋白>90g/L,愿将IUD作为唯一避孕方法的20~45岁妇女。
✧ 对象排除标准:人工流产术后即时子宫>10cm或怀疑有吸宫不全或刮出妊娠物不新鲜,或怀疑有生殖道感染或怀疑有子宫穿孔等并发症者。
✧ 试验组和对照组:TCu380A、宫铜200和活性γ-IUD,三者互为对照。
✧ 主要结局指标:IUD使用相关的终止率(为带器妊娠、脱落相关终止、医疗原因取出3种原因的总和)。
✧ 随访:放置后1、3、6和12个月。
✧ 随机方法:每个中心独立使用一组由计算机产生的随机号。
✧ 盲法:未采取盲法。
✧ 随机化隐匿:将随机号装入不透光信封,使用前依次打开。
✧ 样本量估算:每种IUD受试对象600例,共计1 800例。没有提供样本量估算方法。
✧ 对象退出:记录了退出数量和退出原因。
✧ 主要结论:活性γ-IUD使用相关终止率显著低于其他两种IUD。
[案例2]国产2根和6根型皮下埋植剂随机对照临床试验(曾庆枝等,中国计划生育学杂志,2005,122(12):739~742)
✧ 研究设计:多中心RCT
✧ 对象筛选标准:①身体健康,无使用甾体类避孕药的禁忌证;②自愿以皮下埋植剂作为唯一避孕方法,并能按期随访者;③年龄17~40周岁;④已生育过1个以上子女;⑤非妊娠期;⑥不吸烟或吸烟<10支/天。
✧ 试验组和对照组:国产2根和6根型皮下埋植剂互为对照。
✧ 主要结局指标:避孕失败率、累积停用/续用率、出血/闭经等短期不良反应
✧ 随访:植入后6、12、24、36、48、60个月月末。
✧ 随机方法:未提及。
✧ 盲法:未采用盲法(2根和6根型皮下埋植剂研究者和受试者均可见)
✧ 随机化隐匿:提供随机信封。
✧ 样本量估算:未提供计算依据,但总样本达14 805例,每组样本量约7 400例,属大样本多中心RCT研究。
✧ 对象退出:记录了退出对象总数,无具体退出原因。
✧ 主要结果:使用36个月后6根型避孕效果优于2根型,4年和5年续用率6根型高于2根型。
上述两项研究是国内开展的设计和实施较为规范的计划生育药具RCT研究,但就其报告内容,以现代标准评判,尚存在一些瑕疵。国际社会对如何报告RCT研究结果逐渐取得了一些共识。例如,许多国际性组织推荐按照CONSORT声明报告RCT结果,包括Lancet在内的众多国际期刊已经将其作为 RCT 研究是否发表的主要依据。CONSORT声明从文题和摘要、引言、方法、结果、讨论5个方面对RCT报告进行规范,虽然主要针对的是两组平行设计RCT报告,但大多数条目适用于所有随机试验。执行CONSORT声明不仅能督促研究者按照严格标准设计和执行试验,注重临床试验的完整性和透明性,还能为读者评价已发表的RCT研究质量进行评判。该声明1996年首次发布,2001年首次修订,2010年修订发布的CONSORT声明具体内容见表8-33-3。
CONSORT声明推荐的受试者流程图示例
英国学者Anna F Glasier等在英国、爱尔兰和美国开展了一项比较新型紧急避孕药Ulipristal acetate与含1.5mg左炔诺孕酮紧急避孕药有效性的比较研究。其报告的受试者流程见图8-33-5。
(2)非随机对照临床试验:临床试验能做到随机和对照固然是好,由于种种原因,不是所有临床试验都能做到这一点。有的可以做到有对照,但做不到受试者的随机分配。有的甚至没有对照。从临床证据的强度来看,这样的研究所获得的证据强度比RCT研究要弱,但仍然有存在的价值。
非随机对照临床试验,即研究对象接受何种治疗由研究者决定,或根据患者及其家属是否愿意接受某种治疗分组,试验组和对照组同时随访。因此,非随机对照临床试验往往不能采用盲法,证据质量有所下降。这种设计常由于客观存在的问题及伦理道德因素,无法进行RCT研究时采用。
表8-33-3 2010版CONSORT声明(报告平行设计的RCT内容核查单)
图8-33-5 RCT研究报告流程图示例
引自:Glasier A,2010
非随机对照临床试验的特点是:容易操作,不存在医学伦理问题,容易被医师和患者接受,依从性较高,但需严格控制入选条件,尽量保证各组间治疗前的可比性。其主要不足是难以保证各组间治疗前的可比性,治疗组和对照组在基本临床特征和主要预后因素方面很可能分布不均;易受偏倚影响,夸大或缩小治疗效果。因此,必须对非随机对照临床试验的设计、实施、数据分析、结论推导等各个环节加以严格质量控制,着力控制和识别偏倚。
由于非随机对照临床试验存在较多缺陷,人们设计了一些控制或减小非随机对照临床试验偏倚的方法,如配比、分层、第三方盲法和均衡等,具体操作如下。
1)配比:对可能存在的混杂因素作配比设计,如性别、年龄等方面的配比。
2)分层:按混杂因素分层,需要收集分层因素的资料以便于统计分析。
3)第三方盲法:以不直接参与临床决策的研究者来进行病例报告表的填写,由不参与临床试验的人员进行临床数据分析。
4)均衡:可与上述分层方法结合后来处理混杂因素的影响。首先应对临床试验进行评价,包括分组方法、盲法、将所有病例纳入研究、研究基线、诊断标准、混杂因素等进行评价。如果评价结果提示两组或多组的基线资料不一致,就可能存在某些影响疗效/结果判定的混杂因素,可采用两因素方差分析(混杂因素为分类或计数资料)、协方差分析(混杂因素为计量资料)、Logistic回归分析或Cox分析等。这些方法可在均衡多个混杂因素的影响下较好地评价干预措施的真实效果。
非随机对照临床试验示例:
[案例3]3种不同类型的OCs对血脂代谢影响的比较性研究[杨培娟等.生殖与避孕,1993,13(1):37]
✧ 研究设计:交叉设计非随机对照临床研究,A、B、C 3种OCs,组1:ABC;组2:BCA;组3:CAB。每药连服3个周期,然后改用下一药,未提及洗脱期。
✧ 对象入选标准:27~37岁,身体健康, 3个月内未服用任何甾体激素避孕药及其他可能影响血脂代谢的药物。
✧ 对象排除标准:未说明。
✧ 试验组和对照组:Microynon、妈富隆、中国1号片互为对照及自身前后对照。
✧ 组间对象可比性:未报告。
✧ 主要结局指标:血清脂类、脂蛋白、载脂蛋白浓度。
✧ 随访:分别在服药前、卵泡期、黄体期及服用每种药后第二、三周期第23~26天抽空腹静脉血。
✧ 随机、盲法、随机化隐匿方法:未提及,从文章内容判断为非随机(也未行随机隐匿)和未用盲法。
✧ 样本量估算:无资料。
✧ 对象退出:无退出。
✧ 主要结果:左旋18甲基炔诺孕酮在某种程度上可能会对心血管系统不利,而去氧孕烯和中国1号片对心血管系统有保护作用。
由于对象分组未随机以及未用盲法进行试验,该研究结果的可靠性有一定的存疑。此外,该论文未报告样本量估算、对象如何分组、研究对象特征的组间可比性,并且药物的转换未经洗脱期等,这些都影响研究结果的可靠性。
(3)无对照临床试验:受试对象只有一组,接受的处理或用药也只有一种,无同期,甚至无历史对照与之比较。这种研究设计在临床研究中并不少见,大量的Ⅰ期和Ⅳ期临床试验采用了无对照试验设计方法。这类设计的研究目的通常是药物疗效以外的指标,如药物的药代动力学或药物上市后安全性问题。有些罕见、严重的潜在不良反应,要在很大样本中才能被发现,或者只影响某些特殊人群,或在长期使用后才慢慢显现,这些问题在Ⅲ期临床试验中很可能不被发现。无对照临床试验的受试者一般不用随机的方法选择受试者,根据研究的目的可以对受试者设置一些纳入条件。药物上市后监测则需要尽可能广泛地纳入使用该药物的使用者。
(4)临床试验分期:在计划生育方面,临床试验主要针对避孕和生育有关药具和手术的有效性和安全性等进行考核,研究对象多为健康育龄人群。虽然在开展临床试验前需要经过大量的临床前研究,以表明新型计划生育药具可以进入临床试验,但并不表明可以用于临床。临床前研究毕竟是在离体细胞、组织、器官及动物身上。实践证明,人与动物之间的药效学、毒理学及药代动力学都存在质和量的差别。一般认为灵长类的实验结果比较接近于人,但实际结果不一定一致。例如,长效醋酸甲羟孕酮(DMPA)临床前研究发现,DMPA在begal小猎犬上可引起乳腺肿块,并因此导致该药停用了约20年之久,影响了甲地孕酮、氯地孕酮等这一类药物的应用。随后大量流行病学资料证实,小猎犬上的结果在使用DMPA妇女身上并不出现,从而使美国食品药品管理局(FDA)重新批准了这一类药物的应用。因此,新药在通过我国SFDA审批通过前,必须以临床前和临床资料作为科学依据,以人为对象,进行科学、规范的临床试验。
我国SFDA于2007年6月18日颁布的《药品注册管理办法》将临床试验分为Ⅰ、Ⅱ、Ⅲ、Ⅳ期。4期临床研究依次进行,但有时也可能在同一时间两期同时进行。我国境内所有临床试验,必须在SFDA认可的具有开展相应临床试验资格的机构中进行。不具备资格的药物临床试验机构或专业,在突发性疾病、特殊病种确需要承担药物临床试验的,或疾病预防控制机构需要参加预防性药物临床试验的,须向SFDA提出申请。生物等效性试验要求在获得资格的Ⅰ期临床试验研究室进行生物样品的采集,在具备条件的分析实验室进行生物样品的测定。
根据我国SFDA的GCP指南,以下对Ⅰ、Ⅱ、Ⅲ、Ⅳ期临床试验略作描述。
Ⅰ期临床试验:是初步的临床药理学及人体安全性评价试验。观察人体对新药的耐受性和药代动力学,以便了解人体对新药的耐受程度并通过研究提出新药的有效给药方案。其主要研究内容包括测试人体对药物的耐受性(tolerance)、药代动力学(pharmacokinetics)、生物利用度和生物等效性(bioavailibility &bioequivalence)。
Ⅰ期临床试验设计必须由有经验的临床药理研究人员和有经验的医师,根据临床前药理研究结果进行周密的试验设计和观察,并在有必要的设备条件下进行。必要设备通常包括Ⅰ期临床试验专用病房及专门的分析设备。
Ⅰ期临床试验受试者通常为正常成人,男女数最好相等。孕妇和儿童(除非特殊需要)一般不作为受试者。少数Ⅰ期临床试验直接在患者身上进行,如治疗艾滋病和肿瘤患者的药物,因药物本身具有一定的毒性或严重不良反应,用在正常人身上有违医德。计划生育药具使用者通常是健康人群,非特殊情况,不考虑用患者做Ⅰ期临床试验的研究对象。特殊情况下,通过严格的医学伦理学论证后可以考虑。
确定Ⅰ期临床试验的起始剂量应以保证安全为原则,由有经验的临床药理研究人员和临床医师参考动物实验结果,共同讨论估计出一个预测剂量,然后以该预测剂量的分数量(如预测剂量的1/10)作为人体使用的起始剂量。由于动物无主观反应,药物用在人体内可能更敏感。
最大耐受剂量或最大安全剂量的确定,需要通过试验不断探索,应事先规定耐受性试验的最大剂量。一般以临床应用该类药物单次最大剂量为限,超过了疗效范围就不能增加剂量进行试验。
确定Ⅰ期临床试验的剂量范围,从起始剂量至最大剂量之间设置几个剂量级别,需视药物安全范围大小和根据需要确定。在达到最大剂量仍无毒副反应,一般即可终止试验。如在剂量增加过程中出现了某种不良反应,即使未达到规定的最大剂量,应终止试验。耐受性试验时,每名受试者只能接受一个剂量的试验,不得对同一个受试者进行剂量递增与累积耐受性试验,以确保受试者安全。剂量间隔可先大后小,一般分为5~7级。
药代动力学试验:开展药代动力学试验首先要确定试验剂量,剂量一定要在耐受剂量范围内,可采用等差或等比方式确定。有些Ⅱ期临床试验和改变给药途径的新药需要做药代动力学试验。
健康受试者的药代动力学内容常包括单次给药(线性药代动力学研究)、多次给药(稳态药代动力学研究)、高脂餐探讨食物对药物的影响、药物相互作用、代谢产物。
考虑特殊人群的药代动力学,如肝和肾功能不全、老年人、儿童、患者及不同种族。特殊人群的药代动力学要考虑调整给药剂量。
药代动力学一般在耐受性试验后开展。我国SFDA要求药代动力学试验至少采集9个时间点血样,并避免第一个取血点是药物的峰浓度(Cmax),取血至少3~5个消除相半衰期或血药浓度降至峰浓度的1/10~1/20。
药代动力学临床试验基本过程为:知情同意、受试者筛选→受试者入院→给药→安全性评价、取样→药代动力学评价→血浆药浓度测定→受试者离院。
给药途径需要根据药物的药理作用及用药目的选择。为安全起见,无论采用何种给药途径均须准备好相应的抢救措施。
生物等效性试验:生物等效性试验的目的是比较药物不同制剂的有效性。对于速释制剂通常采用开放、随机、交叉、单剂、两周期试验设计。而对于控释或缓释制剂,也可采用开放、随机、交叉、单剂、两周期试验设计,还可采用开放、随机、交叉、多剂、两周期试验设计。
在进行两种以上的剂型比较时,可以进行多周期试验设计。试验药物的半衰期过长时,应该进行平行试验设计。要做血药浓度达到稳态时的生物等效性,以观察制剂的控释或缓释特性是否一致。单剂给药和重复剂量给药试验可否使用同一组受试者取决于试验药物的半衰期,以及试验周期的长短。
对于生物等效性临床试验受试者数目, SFDA指导原则是18~24例,但需要根据统计学的把握度进行计算。一般相似性越好,需要的例数越少;病例数越多,把握度越大。生物等效性临床试验样本量目前尚无国际标准。美国要求24~36例,欧盟为>12例,日本为20~30例。
确定标准参比药物原则上以原生产厂家的同类产品为标准参比药物,或以市场上公认的主导产品为标准参比药物。在原药代谢很快、药代动力学参数变异大导致血液浓度测定困难或受试者数目过大时,可以用主要活性代谢产物为基础进行等效性研究。
生物等效性对象一般以18~40周岁健康男性为受试者,体质指数(BMI)在正常范围内(19~25),并签署知情同意书。选择男性是为了消除性别间的差异,另外可避免女性经期及妊娠的影响。
生物利用度:是研究药物的活性成分被生物吸收入血液循环的速度和程度,是评价药物有效性和安全性的重要参数。一般包含以下3个重要参数:①曲线下面积(area under curve,AUC):药物吸收程度;②血药峰浓度(Cmax):与疗效及毒性水平有关;③达峰时间(tmax):药物吸收速度。
当前一些大型统计软件均提供了一组命令进行药代动力学参数分析,如Stata中的一组pk命令,包括pkexamine(计算药代动力学参数)、pskumm(药代动力学参数的描述性分析)、pkcollapse(产生药代动力学参数数据集)、pkshape(药代动力学数据格式转换为方法分析格式)、pkcross(交叉设计试验资料的分析)、pkequiv(交叉设计资料生物等效性检验)。
[案例4]含nomegestrol acetate(NO-MAC)和17β-oestradiol(E2)与dro-spirenone(DRSP)和ethinylestradiol(EE)口服避孕药药代动力学比较(Duijkers 2010)
新西兰曾进行了一项比较含NOMAC/E2与含DRSP/EE OCs药代动力学的随机、开放标签临床研究,该研究共招收了48名18~35岁,身体健康,BMI为17~35,参加试验前确认有排卵,愿意在试验期仅使用避孕套避孕的育龄妇女。但有使用类固醇激素或屈螺酮避孕药禁忌证、哺乳、过去2个月内曾使用肝酶诱导药物或参加了其他临床试验者,以及过去6个月内宫颈涂片筛查异常或筛查时有实验室异常者除外。研究采用开放标签设计,以2∶1随机分配,32例对象使用NOMAC/E2,16例对象使用含DRSP/EE、OC。主要研究指标为血清雌、孕激素水平, FSH、LH和超声下卵泡直径。结果表明, NOMAC/E2能够持续抑制排卵,其抑制排卵的效能至少与DRSP/EE相似。
[案例5]不同剂型Ulipristal acetate (UPA)药代动力学和生物利用度比较
某制药公司研制了一种新型紧急避孕药UPA,在推出50mg晶体胶囊剂型后,该制药公司又开发了两种剂型:微粒化胶囊和微粒化药片,为此开展了剂量相同3种剂型间药代动力学比较研究。结果发现微粒化药片吸收速度比没有微粒化的胶囊快,且血浆峰浓度接近后者的2倍,生物利用度是后者的1.44倍。根据这些研究结果,制药公司将该紧急避孕药剂型由原50mg晶体胶囊改为30mg微粒化药片,且认为两者避孕的有效性和安全性相似。该研究结果随后获得了美国FDA和欧洲EMA(European Medicines Agency)的认可。
Ⅱ期临床试验:是药物治疗作用的探索阶段。其目的是探索药物对目标适应证患者的有效性和安全性。通常在最大耐受剂量以下的剂量范围内,找出具有最佳疗效、无或轻度可接受的不良反应的相应剂量范围,进而确定最佳剂量及评价有效性。Ⅱ期临床试验也包括为Ⅲ期临床试验研究设计和给药方案的确定提供依据。
Ⅱ期临床试验是Ⅰ期的延续,研究设计是基于Ⅰ期的研究结果,并继续观察短期不良反应和补充药理学信息。Ⅱ期受试者人数较Ⅰ期多,少的可有25~100人,多的可达500人,SFDA在《药品注册管理办法》附件中对不同类别药物申请资料的最小样本量提出了一些要求,研究者在试验设计阶段有必要仔细研读。Ⅱ期临床试验在适应证确立后,第一次将药物用于患者。患者的选择有严格的限制,如选择没有其他疾病只有适应证的对象,以避免其他同期疾病影响有效性和安全性的评估。
此阶段也需要考虑治疗的可行性,如疗效受益是否大于可能产生的不良反应。另外,还要考虑用药方法、受试者征集的难易程度和是否符合医学伦理等,为开展Ⅲ期大型RCT研究做好铺垫。Ⅱ期临床试验的研究设计可以根据具体的研究目的,采用多种形式,包括RCT设计。
Ⅱ期临床试验示例
[案例6]含nomegestrol acetate and 17β-estradiol(NOMAC/E2)复方口服避孕药24天和21天方案比较的随机对照双盲研究。(Cristin-Maitre S,2011)
✧ 研究设计:平行RCT
✧ 对象纳入标准:健康、未妊娠、未闭经、月经周期在28±7天、18岁~38岁妇女。
✧ 对象排除标准:研究开始前2个月内使用OCs、IUD或皮埋的妇女。
✧ 试验组:使用含NOMAC OCs24天(含药)+4天(安慰剂)。
✧ 对照组:使用相同OCs 21天(含药)+7天(安慰剂)。
✧ 主要结局指标:卵泡发育大小(阴超下直径)、至少一个卵泡>10mm妇女数、至少一个卵泡>13mm妇女数。
✧ 次要结局指标:血清激素水平、宫颈黏液、子宫内膜厚度。
✧ 随访:用药前(月经周期第13天)、用药后第1周期第1和24天、第2周期第13天、第3周期第13天、试验结束后周期第13天。
✧ 随机方法:随机区组设计,4个对象为一个区组,采用计算机随机化。
✧ 盲法:双盲。受试者、临床医生、统计人员、超声检查人员均不知对象分配在哪一组。药物制剂外形完全一致。
✧ 样本量估算:60例,每组30例。提供了详细样本量估计资料。
✧ 主要结果:含NOMAC/E2口服避孕药24天方案比21天方案抑制滤泡生长效果更好,且撤退性出血时间更短。
Ⅲ期临床试验:是药物治疗作用确证阶段。目的是验证药物对预期适应证患者(可以是老年人、儿童等特殊人群)的有效性、安全性和受益/风险比,最终为药物注册申请获得提供充分的依据。
Ⅲ期临床试验设计更为严格,一般是具有足够样本量的RCT设计。样本量需要根据严格的统计学计算,并符合国家新药审批标准,试验组一般≥300例,因此Ⅲ期临床试验费用较高。在对照的选择上要特别注意伦理问题,通常用市面上公认的标准疗法作为对照。如果没有标准疗法,或存在一些特殊情况,可以考虑使用安慰剂对照。在具有显著疗效,足以排除偶然因素或偏倚等可能的潜在因素等极少数情况下,可以不用对照或采用历史对照。
Ⅳ期临床试验:是新药上市后由申请人自主进行的应用研究阶段。其目的是考察在广泛使用条件下药物的治疗和不良反应;收集长期安全性数据;评价在普通人群和特殊人群中(如老人、儿童、孕妇、肝和肾功能不全者)使用的利益与风险关系;改进给药剂量;发现其他未被发现的适应证等。还可以对不同给药方法、剂型、剂量、疗程及与其他药物的交互作用进行评价。此外,还将进一步考察药物对患者的经济与生活质量的影响。
Ⅳ期临床试验是上市后进行的试验,设计一般不做随机,也可不设对照组,但不排除根据需要对某些适应证,或某些试验对象进行小样本RCT。Ⅳ期临床试验要求的病例数较多,一般为上市前临床试验例数的5~8倍。《药品注册管理办法》规定Ⅳ期临床试验病例数应当符合临床试验的目的和相关统计学的要求,并且不得少于办法规定的最低临床试验病例数(Ⅳ期2 000例)。罕见病、特殊病种及其他情况,要求减少临床试验病例数或免做临床试验的,必须得到SFDA审查批准。避孕药的Ⅳ期临床试验应当充分考虑该类药品的可变因素,完成足够样本量的研究工作。此外,Ⅳ期临床试验方案设计应简明,指标少而精。过于复杂的实验室指标或研究表格会制约样本量,同时也会影响多中心临床试验的质量控制。
(5)临床试验的一般过程:一项临床试验从开始到结束一般包括计划阶段、撰写方案摘要、选择研究者、撰写及完善方案/病例报告表、试验前访视、伦理委员会批文、试验药供应、启动随访、试验中随访、试验结束随访、收集病例报告表、数据录入、解决数据质疑、统计分析、研究报告。上述阶段依时间次序先后发生,但有几个过程可以同时准备,如计划阶段就可以考虑选择合适的研究者,有经验的研究者可以帮助计划及撰写方案摘要,数据录入可以在随访阶段同时进行,还可以帮助发现调查表中的错误及时更正。
(6)临床研究设计方案的要求:SFDA在GCP规范中提出,临床试验开始前应制订试验方案,该方案应由研究者与申办者共同商定并签字,报伦理委员会审批后实施。GCP规范第十七条指出,临床试验方案应包括以下内容。
a.试验题目。
b.试验目的,研究背景,临床前研究中有临床意义的发现和与该试验有关的临床试验结果、已知对人体的可能危险与受益,试验药物存在人种差异的可能。
c.申办者名称、地址,进行试验的场所,研究者姓名、资格和地址。
d.试验设计类型、随机化分组方法及设盲水平。
e.受试者入选标准、排除标准和剔除标准,选择受试者步骤,受试者分配方法。
f.根据统计学原理计算要达到试验预期目的所需的病例数。
g.试验用药品的剂型、剂量、给药途径、给药方法、给药次数、疗程和有关合并用药的规定,对包装和标签的说明。
h.拟进行临床和实验室检查的项目、测定次数和药代动力学分析等。
i.试验用药品的登记与使用记录、递送、分发方式和储存条件。
j.临床观察、随访和保证受试者依从性的措施。
k.中止临床试验的标准,结束临床试验的规定。
l.疗效评价标准,包括评价参数的方法、观察时间、记录与分析。
m.受试者编码、随机数字表及病例报告表的保存手续。
n.不良事件的记录要求和严重不良事件的报告方法、处理措施、随访方式、时间和转归。
o.试验用药品编码的建立和保存,揭盲方法和紧急情况下破盲规定。
p.统计分析计划,统计分析数据集的定义和选择。
q.数据管理和数据可溯源性的规定。
r.临床试验的质量控制与质量保证。
s.试验相关的伦理学。
t.临床试验预期的进度和完成日期。
u.试验结束后的随访和医疗措施。
v.各方承担的职责及其他有关规定。
w.参考文献。
临床试验设计强调方案的伦理性和科学性。试验过程中,若确有需要,可以按规定程序对试验方案作修正。
(7)临床试验中的误差来源与控制:临床试验设计要求对试验产品/药品进行合理、有效的安排,严格控制非试验效应,最大限度地减小误差,使试验达到高效、快速和经济的目的。因此,识别和控制误差十分重要。以下是一些临床试验中可能遇到的一些误差及其控制方法。
试验过程中所获得的数值与真实值之差,以及统计量与相应参数之差称为误差(error)。在研究过程中,需要严格排除和控制除研究因素之外的其他各种因素对试验结果的影响,使误差得以排除或尽可能减小,保证试验的顺利和成功。根据误差产生的原因和性质,可以分为抽样误差、系统误差、随机测量误差和过失误差4类。
1)抽样误差:将由于抽样和进行随机分组产生的误差称为抽样误差(sampling error),这是因为生命现象普遍存在个体差异,如人种、性别、年龄等。参加试验的研究对象的特征不可能完全等于总体特征,这就存在抽样误差。要使临床试验结果能较好地推论总体,应尽量控制和缩小抽样误差,但抽样误差总是会存在,不可能缩小为零。
控制抽样误差的有效办法是确保样本中每个研究对象都属于事先确定的同一个总体。如在口服避孕药有效性研究中,试验对象是15~49岁汉族健康已婚育龄妇女。研究对象是从总体中随机抽样获得,达到有效样本量,并将试验对象随机分配到试验组和对照组。
2)系统误差(systematic error):是指偏向一个方向的误差。系统误差的来源可以是研究设计不当、抽样方法有误、检测仪器或试剂误差、受试环境,以及受试者或观察者思想、文化、心理、宗教等方面的影响所致的系统性偏差。如在IUD不良反应的研究中,如果农村受试者使用的是A型IUD,城市受试者使用的是B型IUD,结果很可能出现B型不良反应率更高,然而真实结果可能未必如此。这是因为城市妇女很可能对IUD不良反应的敏感性高于农村妇女,换句话说,农村妇女对IUD不良反应的耐受性大于城市妇女。再如,在某种疫苗的安全性研究中发现,医学生试验对象报告的红肿、疼痛、发热率远远高于农村接种对象。显然,医学生对疫苗可能产生的种种不良反应比农村对象更敏感。类似的事件也可能发生在观察者身上,尤其是当观察者对受试产品事先已经有好恶意见,在接下来的观察或测量时可能产生有利或不利于受试产品的结果。检测仪器和试剂同样可导致系统误差。
控制系统误差有效办法是随机抽样、随机分组,并采用盲法进行观察。这样试验组和对照组研究对象特征均衡,同时还可以避免受试对象和研究者的主观意识对研究结果产生的影响。有的研究实现盲法比较困难。如在IUD的有效性和安全性临床研究中,由于IUD放置是可视的,并且必须告知研究对象相关事项,因此不能对受试者使用盲法,如果放置人员同时也是研究者,则对研究者也不能使用盲法。在这种情况下,起用不参与提供技术服务的第3方开展其后的随访工作,可以较好地降低人为因素导致的系统误差。至于实验环境,如季节、温度、室内灯光、湿度等所致的系统误差,可以尽量在相同试验条件下开展,并且将试验组和对照组的标本同时进行检测,让试验组和对照组除处理因素之外的其他因素保持均衡一致。
3)随机误差(random measurement error):产生的原因是一些未知的因素。这种误差有时大、有时小,有时正、有时负,通常呈正态分布。缩小随机测量误差可对同一样品多次重复测定取均值,使其接近于真值。
4)过失误差(gross error):是由于观察者的失误所造成的,如数据填写错误、数据输入错误、度量衡单位用错、统计方法用错等。控制的方法主要是,加强对随访人员的培训、制作统一的培训手册、进行培训后考核、随访期间对随访质量进行督察,特别是项目开展的初期;对数据输入数据库进行输入限制,如限制输入的数字或大小,制作数据校对文件,编制数据校对程序,对数据进行双人双遍输入;保留统计分析程序,请资深统计专家对分析程序和结果进行把关等。
33.1.2.2 队列研究
从前面介绍可见,RCT试验组和对照组的处理(如用药或不用药)受到人为控制,下面介绍几种临床研究设计,其处理(流行病学常用“暴露”一词)不为人所控制,或者说是“自然”暴露与非暴露。其中最严谨的设计是队列研究。
队列研究是一种分析性流行病学研究设计,研究对象按自然暴露于某种特定因素与否,分成暴露组和非暴露组。通过一段时间的随访,发现两组待研究事件/疾病的发生情况,比较它们在两组间的发生率,以揭示暴露因素与观察事件的因果关系。队列研究与RCT研究类似,研究过程都是从暴露到结果。不同的是,RCT研究对象的暴露状态是由研究者分配,而队列研究的暴露是自然形成。从暴露因素与结果发生的时间来看,暴露在前,结果在后,因而队列研究对因果关系的评估有重要的价值,其证据的强度仅次于RCT研究。
“暴露”是流行病学研究常用一个术语,其含义非常宽泛,可以是研究对象曾经接触过某因素、具备某些特征,或者是所处的某种状态。这些因素、特征或状态可能与研究的疾病、健康状况有关。研究者所关心的任何因素都可以称为暴露因素。
根据建立队列的时机可将队列研究分为前瞻性、半前瞻性和回顾性(或称为历史性)队列研究。前瞻性队列研究从暴露刚开始建立队列,一直观察到结局发生与否。半前瞻性队列研究在建立队列时暴露已经发生,但结局尚未发生,一直随访到结局。回顾性队列研究在建立队列时结局已经发生,回顾过去暴露与否,因此是构建一个已经发生的队列。3种队列研究的关系见图8-33-6所示。
图8-33-6 队列研究分类示意图
(1)暴露与非暴露组对象的选择:队列研究设计的关键问题,是如何选择合适的暴露组和非暴露组研究对象并保持较高的随访率。常见的暴露和非暴露组研究对象的选择有以下4种人群。
1)职业人群:通常用于研究某种职业暴露因素与健康状态或疾病的关系。暴露组为从事某种职业,有接触该暴露因素者;非暴露组可为同一单位非接触暴露因素者,或从事其他职业非接触该暴露因素者。如研究放射对妊娠结局的影响,工作中长期接触视频或其他产生和使用放射仪器职业的人群组成暴露组,工作场所无放射环境,教师可组成非暴露组。
2)特殊暴露人群:通常是指暴露于某些罕见的特殊因素的人群。如1984年12月3日印度中央邦博帕尔市美国联合碳化物公司下属联合碳化物(印度)有限公司氰化物泄漏,除了导致数万居民死亡外,数十年内当地居民的患癌率及儿童死亡率远比印度其他城市高。前苏联切尔诺贝利核电站事故、日本福岛核电站核泄漏的受害者是核暴露的特殊人群。有研究显示,1991年海湾战争以后,成千上万的老兵患上了海湾战争综合征,在开展相关疾病/症状研究时,参加过海湾战争的士兵就是一组特殊暴露人群。
3)一般人群:通常是指一定行政或地理区域内的全体居民,选择其中暴露于欲研究因素的对象为暴露组。如我国在江苏太仓开展了口服避孕药与心血管疾病的研究,使用口服避孕药的已婚育龄妇女作为暴露组,使用IUD的已婚育龄妇女作为非暴露组,随访若干年,比较两组高血压和脑卒中的发病率。
在一般人群选择暴露组通常有以下几个方面的考虑:①暴露组在人群中代表性好,研究结果更具有普遍意义,同时也有利于今后在人群中进行相关疾病的进行防治;②暴露因素的测量不是在个体,而是在一定行政或地理区域层面,如饮用水碘/氟含量、气温/气候与疾病或健康状况的关系;③所研究的暴露因素与疾病都是一般人群中常见的,不必要或没有特殊人群可用。保险资料也可以看做是一般人群资料的特殊形式。随着我国保险制度的完善,参保人数与日俱增,为开展有关研究提供了便利的数据。美国就曾利用保险数据库资料,研究和分析口服避孕药与静脉血栓的关系。
4)有组织的人群团体:可以看做是一般人群的特殊形式。如学校、部队、机关、企业、工会、行业学会/协会等。利用现成的组织系统,可以比较便利地收集暴露和结局资料。如同样是口服避孕药与静脉血栓的关系,英国学者利用了全科医师数据库开展研究。
所研究的暴露因素是选择暴露组研究对象考虑的最主要因素,当然其他一些因素也需要慎重考虑。如暴露至发病的潜伏期长短,潜伏期长,则随访的时间要足够长。对于长潜伏期或潜伏期未知疾病,如口服避孕药与子宫内膜癌的关系,可考虑用半前瞻性或回顾性队列的研究方法。这种研究方法缩短了研究期限,但也牺牲了对部分偏倚的控制,如信息偏倚,一定程度上影响了证据的质量和强度。
非暴露组研究对象除了无暴露因素外,其他条件及疾病的诊断应与暴露组尽可能相似或相同,以控制潜在的偏倚和混杂对研究结果的影响。
(2)暴露的测量:在前瞻性队列研究中,招募研究对象的同时就要测量暴露。有时在对象被招募前暴露已经发生了一段时间,如研究口服避孕药与心血管疾病的关系,被招募的对象可能随访开始之前已经使用了口服避孕药,这时就要同时收集当时和过去的暴露资料。为了充分描述暴露与结局之间的关系,收集的暴露资料应包括暴露频率、持续时间、剂量和日期(如第一次和最后一次暴露时间)。有时在研究过程中暴露可能发生改变,如口服避孕药使用者在观察期内停用避孕药,而改用IUD。非暴露组可能出现相反的情况,如原来不用口服避孕药,现在使用了。出现这样的情况可使结果产生严重偏倚而导致研究结果无效。一种解决的方法是,记录研究对象暴露的时间和强度,分析暴露剂量与研究结局的关系。如口服避孕药使用的品种和时间,分析用药时间和剂量与心肌梗死、脑卒中的关系。
暴露组和非暴露组研究对象的选择示例
[案例7]地中海贫血与死胎的关系(前瞻性队列研究)
该研究暴露组对象是第一次到医院进行产前检查发现患有地中海贫血的孕妇,非暴露组是第一次产检未患有地中海贫血的孕妇。两组对象同等对待,均随访致妊娠结束,观察和比较两组孕妇发生死胎发生率。
[案例8]人工流产与不良妊娠结局的关系(半前瞻性队列研究)
WHO曾在中国开展了一项人工流产对其后妊娠结局影响的研究。暴露组是有过人工流产史的育龄妇女,非暴露组是无人工流产史的妇女。该研究的复杂性在于,有人工流产史的妇女可能还有其他妊娠结局,如活产、自然流产。这些妊娠史可能干扰研究结局,并且,人工流产有手术流产和药物流产之分。因此,暴露组对象选择之前要明确暴露的定义,可能的话,定义暴露的最小剂量。最终,该研究选择了仅有手术流产(仅有1次和1次以上两个研究组)且无其他妊娠史的孕妇妇女作为暴露组。对照组对象的选择面临同样的问题,选择怎样的对照能够清晰地反映手术流产对妊娠结局的影响呢?该研究最终选择了本次妊娠前无怀孕史初孕妇作为对照,这样做最大优点是避免了既往妊娠史对研究结果的影响。但同时又出现了其他无法调和的矛盾。有研究表明,首次妊娠并分娩婴儿的出生体重较轻,人工流产妇女非首次妊娠,这会不会影响研究结果呢?研究设计时无从而知。一般来说,对象纳入标准越严格,越难招到合格的研究对象,可能影响研究的进展。由于暴露组对象要求严格,导致有多次手术流产史的对象招收缓慢。
[案例9]口服避孕药与静脉血栓的关系(Lidegaard,2009)(回顾性队列研究)
根据全国(丹麦)口服避孕药处方信息并链接国家数据库,识别使用和未使用口服避孕药或使用不同种类口服避孕药妇女组成暴露组和非暴露组。研究开始时,所有暴露对象和非暴露对象已经自然形成。
✧ 发病资料:国家数据库中所有第一次发生静脉血栓的患者(以出院诊断为判断依据),研究开始时,结局已经发生,追寻静脉血栓发生前口服避孕药的使用情况。
✧ 主要结果:与第二代口服避孕药(孕激素为左炔诺孕酮,LNG)相比,含屈螺酮的第4代口服避孕药致静脉血栓的风险介于第2、3代口服避孕药之间。
✧ 存在问题:LNG使用者和屈螺酮使用者纳入时间存在差异,即大量LNG使用者出现的时间离现在远(因为这种口服避孕药出现的时间早),而几乎所有的屈螺酮使用者离现在近(因为这种口服避孕药出现的时间晚),因此本研究存在时间偏倚。其结果可能导致低估含LNG口服避孕药致静脉血栓的风险。此外,随着诊断技术的进步,VTE发现率也会随着时间而上升,由此可能导致高估含屈螺酮口服避孕药对含LNG口服避孕药的风险。另外,由于使用的是现有的数据库,该研究缺乏体质指数及静脉血栓家族史信息,可能导致研究结果的偏差。
近些年来,北欧一些国家,包括丹麦、冰岛、挪威等国,由于拥有良好的全人群的社会和医疗等数据库,流行病学家利用这些数据库做了大量的回顾性队列研究。利用现成数据库做回顾性队列分析最大的挑战是如何避免混杂因素选择合适的暴露组和对照组,数据不全以及没有关键混杂因素信息也比较常见,因此研究的质量受到一定程度的影响。读者在阅读相关文献时需要加以关注。
[案例10]月经周期妊娠概率研究(无对照队列研究)(Wilcox,2001)
Wilcox及其同事观察随访了213名年龄在21~42岁、打算怀孕,且无已知不育因素的妇女在月经周期中各天性生活及其妊娠概率,结果发现,月经周期的前3天妊娠概率为零,第7天妊娠概率约为2%,此后迅速上升,在月经周期的第12、13、14天妊娠概率最高,单次性生活妊娠率分别达到8.4%、8.6%和8.1%,随后快速下降,第23天至第40天保持在1%左右(图8-33-7)。
1996年丹麦建立了世界上第一个前瞻性出生队列,其最初目的是研究孕前即围产期暴露因素对人类疾病的影响。1996~2002年该项目共招募了101 042名孕妇,涵盖了该国约30%妊娠妇女,全国约半数的家庭医师加入其中。该项目通过3种方法收集资料:①对象自我报告,收集的信息包括生活习惯、饮食、社会环境、感染、用药和环境暴露因素;②生物标本,采集孕12周、24周血样及脐带血等;③链接现有国家登记数据库,如全国患者登记及出生登记系统、处方登记系统、伤残登记系统、死亡登记系统等。随着研究的深入,该队列对医学研究的贡献已经远远超出了当初的设计,包括开展避孕药具长期安全性等在内。现在世界上许多国家,如美国、英国、德国、挪威、日本、韩国等已经建立了自己的出生队列,我国上海出生队列也刚刚开始建立,希望能在不远的将来对我国的计划生育相关临床研究能有所贡献。
图8-33-7 妇女月经周期中每天的妊娠概率
(3)队列研究的优点和缺点
1)优点:①能清楚反映暴露与疾病的时间先后关系,验证病因假设能力强;②能获得暴露组和非暴露组的发病率或死亡率,并计算相对危险度和人群归因危险度等指标,反映暴露因素的致病强度和广度;③对结果有影响的因素可通过分层随访或配对分别纳入两组,进行对比分析,增强结果的可靠性;④有助于了解疾病的自然史,也可以同时研究一种暴露与多种疾病或结局的关系。
2)缺点:①历时长、样本量大、费用高;②对象依从性难以保证,干扰、失访增多,影响结果的准确性;③分组是自然形成,难以保证两组基线均衡可比,需要通过较为复杂的统计方法进行混杂因素的控制。
33.1.2.3 病例-对照研究
第二种常见的流行病学研究设计是病例-对照研究。病例-对照是一种回顾性研究,通常是选择患有待研究疾病的一组患者作为病例组,另选一组未患该病的对象作为对照组,通过回顾并比较两组对象是否暴露于某种危险因素,探讨该暴露与待研究疾病的关系。其原理如图8-33-8所示。
病例-对照是一种观察性研究,研究者只是客观地收集病例组和对照组对象既往暴露史,而不施加任何干预措施。其次,它是一种纵向、回顾性、由果及因的研究,由于开始研究时结果已经发生,有时难以判断暴露因素是否发生在疾病发生之前,因此病例-对照研究的证据强度弱于队列研究。
进行病例-对照研究时,选择合适的病例组和对照组是研究成败的关键。以下介绍几种常用病例与对照选择方法。
(1)病例组选择原则:①要有明确、统一的疾病诊断标准。病例组的研究对象均要符合事先规定的诊断标准,最好用国际或国内统一使用的标准,必要时可自定标准,这时最好与有经验的专家进行探讨,采用灵敏度与特异度都比较好的检查方法作为疾病的诊断执行标准。②尽量采用新发病例。由于是新发病例,发病时间短,暴露史回忆信息可靠;各种医疗记录、病案资料等也易于获得,并且新发病例尚未明显受到决定生存因素的影响。与之相反的是,现患病例由于发病时间长,存在回忆偏倚的可能性更大;并且现患病例是新发病例的幸存者,经受住了影响生存因素的考验,因此其对患者人群的代表性不如新发病例,研究结果有可能产生错误结论。若以死亡病例作为研究对象,暴露史不能直接由研究对象报告,否则更容易产出信息偏倚。③病例特征限定。有时为了增加病例与对照非研究因素的均衡性,在选择研究对象时可对两者的其他特征,如年龄、性别、职业等进行限定。
图8-33-8 病例-对照研究原理示意图
(2)病例来源:①医院:在医院门诊或住院患者中选择。为提高病例组的代表性,常选择一家或几家医院一段时间内确诊的所有病例,或其随机样本,以降低研究者对患者的选择性偏倚。但患者对医院,或者医院对患者可能存在一定的选择性,因此来自多家医院病例的代表性通常好于来自一家医院。②人群:在一般或特定人群中一定时期内发现的病例作为病例组,其代表性好于来自医院的病例,但这样的病例往往不易收集,合作性较差,调查实施难度更大。③疾病/死亡报告、登记系统:我国有肿瘤、传染病、出生缺陷、死亡等报告和登记系统,其病例可作为病例-对照研究对象的来源。但是,要注意这些对象的代表性以及资料的完整性。
(3)对照组选择原则:①未患所研究的疾病:经过规定的诊断标准确认未患所研究疾病的对象可作为对照组。否则,将会缩小暴露因素与疾病的联系强度,甚至得出无意义的结果。②未患与研究因素有关的其他疾病:同样可缩小暴露因素与疾病的联系强度,甚至使本来有联系的因素得出无联系的结论。③能与病例组相同的方法获得暴露资料:暴露史资料来源渠道不同,可使资料的真实性不可比,影响研究结果的可靠性。④为提高统计效率,病例与对照除研究因素外的其他因素应具有可比性。其他因素主要是指可能存在影响研究结果的混杂因素,与研究因素和所研究的疾病均有关,如果在两组人群中分布不均,可以导致掩盖或夸大研究因素与疾病的关系。虽然在资料分析阶段,可以通过分层分析和多因素分析方法控制混杂因素,但样本量要足够大,病例-对照样本量的估算通常并不将混杂因素考虑在内。对关键的混杂因素,可考虑用配对的方法进行控制。⑤尽量设立多组对照:设立多组对照可以增加结果的说服力,但也增加了研究的难度。
对照来源:对照组研究对象的来源可参考病例组,以增强两组的可比性。表8-33-4列举了一些病例和对照的来源可供参考。
表8-33-4 病例和对照的来源
引自:乌正赉.病例对照研究.见:曾光主编.现代流行病学方法与应用.北京:北京医科大学中国协和医科大学联合出版社, 1994.76。
(4)病例-对照研究的优点和缺点
1)优点:省时、省力、省钱,易于开展;适用于少见病研究;适用于潜伏期长的疾病研究;伦理问题少,对患者无危害;可以同时调查多种相关因素。
2)缺点:易发生各种偏倚;不能确定暴露与非暴露人群的疾病发病率,只能计算近似的危险度;对研究暴露比例低的疾病,样本量很大;合适的对照有时比较难以寻找。
(5)非传统病例-对照研究:随着流行病学的发展,特别是新的检测和诊断技术的出现,病例-对照研究方法有相应改进,以减少偏倚或提高研究效率等为目的,出现了一些非传统的病例-对照研究方法。医学研究中常见的非传统病例-对照研究有:①巢式病例-对照(nested case-control study);②病例-队列研究(case-cohort study);③病例-病例研究(case-case study);④病例-自身对照研究(case crossover study)。后两种设计未专设对照组,因此又称单纯病例研究。以下对这几种非传统病例-对照研究方法的原理简要介绍。
1)巢式病例-对照研究:所谓“巢式”是指病例和对照均来自同一特定队列。其方法是在前瞻性队列研究的基础上,将随访过程中所发现的新发病例组成“病例组”,在同一队列未发病对象中,按照设计的配比要求选择对照,然后参照病例-对照研究方法进行调查分析。该方法综合了队列研究与病例-对照研究的优点。如因在前,果在后,符合因果推论要求;选择和调查的偏倚少;标本收集于发病前,能反映发病前标记的状态;研究样本可较队列研究少,节省了人力、物力,利用已经建立的队列,无需长期随访。有学者认为,巢式病例-对照研究是一种低偏倚、高效益的研究方法,其证据强度接近于队列研究。利用现成队列,如监测队列、妇科疾病普查、药物不良反应监测、医院感染检测等,开展巢式病例-对照研究潜力巨大。
2)病例-队列研究:以暴露组队列发现的病例组成病例组,从暴露组非病例和对照组队列中用单纯随机或分层随机抽样的方法抽取一个有代表性的子队列为对照,进行病例-对照研究。这种方法提高了对照组的代表性,也降低了研究多项疾病转归时需要重复选取对照的麻烦。不过,这种方法使病例组与对照组某些因素不具可比性,可通过分层和多元统计方法来解决。
3)病例-病例研究:是一种仅通过对病例组中环境因素、易感基因型暴露与否的4种不同组合的病例数分析,来探讨遗传与环境因素的交互作用的研究方法。其前提假设是所研究的环境因素与易感基因型相互独立,即基因型不影响环境因素的暴露,反之亦然。该方法目前只能分析相乘模型的交互作用,不能分析相加模型的交互作用。病例对象的选择如同传统病例-对照研究,因无需设立专门对照,避免了对照选择不当所产生的问题,且样本量较传统病例对照少。
4)病例-自身对照研究:即患者既作为病例也作为对照,以患者处于疾病发生、发展的不同时期分别视为病例或对照。该方法主要用于研究诱发危险因素与突发事件的关系(短暂暴露出发急性临床事件),如脑梗死、脑出血、猝死、消化道出血等。这种方法避免了选择对照的麻烦和偏倚,暴露因素外的其他因素具有较好的可比性。
(6)病例-对照和队列研究中的偏倚与控制:如果说病例-对照研究的关键在于病例和对照的选择,那么其难点在于偏倚的识别与控制。由于病例-对照是一种回顾性观察研究,容易产生各种偏倚,如果不能有效控制,可严重影响研究结果,甚至导致错误的结论。偏倚可发生在研究的各个阶段,包括设计、实施、分析及推断过程中;不但存在病例-对照,还存在队列研究等各种研究类型中。以下简要介绍偏倚的大致分类及控制方法。
1)选择偏倚:是指研究入选者与未入选者在对象特征上存在差异造成的偏倚。多见于现况研究、病例-对照研究、历史性队列研究。包括以下几个方面。
● 入院率偏倚(Berkson's bias):是指利用医院门诊或住院病人作为研究对象时,由于入院率的不同而导致的偏倚。
● 现患病例-新病例偏倚(neyman bias):病例对照研究中如选择现患病例作病例,他们是过去一段时间新发病例的幸存着,如果幸存者所反映的暴露情况比新发病例高或低,则会导致此种偏倚的出现。
● 检出偏倚:指某因素与某疾病无关联,但由于该因素的存在而引起某些症状或体征的出现,从而使患者及早就医,接受多种检查,导致该人群该病的检出率较高,以致得出该因素与该疾病有关联的错误结论。
● 易感性偏倚:观察结局除与暴露因素有关外,还与观察对象的易感性有关。有些因素可能直接或间接地影响暴露人群或对照人群对所研究疾病的易感性,导致偏倚的产生,这种偏倚称为易感性偏倚。
● 排除偏倚:在研究对象的确定过程中,没有按照对等的原则或标准,而从观察组或对照组中排除某些研究对象,这样导致该因素与疾病之间的错误估计,称为排除偏倚。
● 无应答偏倚:病例或对照组中的无应答者的患病状况,以及对某一或某些研究因素的暴露情况与应答者不同,由此产生的偏倚称为无应答偏倚。(www.xing528.com)
● 失访偏倚:是一种无应答,主要发生在前瞻性队列研究和临床试验中。
● 志愿者偏倚:志愿者与非志愿者在关心健康、注意饮食卫生及营养食疗、戒烟戒酒、体育锻炼等方面有系统差别。如选择志愿者为对象,而非志愿者常落选,可能会产生偏倚。
● 时间效应偏倚:潜隐期的病人(特别是慢性病)被纳入健康对照组,容易得出暴露因素与疾病无关的错误结论。
选择性偏倚的控制主要应通过科学的研究设计和认真的实施,避免其发生。因为存在选择性偏倚的资料一般情况下很难纠正。降低选择性偏倚的发生,研究者应对整个研究中可能出现的各种选择性偏倚有充分的了解、掌握;严格掌握研究对象纳入与排除的标准;在研究中采取相应措施,尽量取得尽可能高的应答率;随机选择研究对象,或在多个医院选择研究对象,或同时选择医院和社区的对象;选择新发病例作为对象;采取严格科学的研究设计。
2)信息偏倚:是指在研究的实施阶段从研究对象获取研究所需信息时所产生的偏倚。信息偏倚可来自研究对象、研究者,也可来自测量的仪器、设备、方法等。其表现是使研究对象的某特征被错误分类,又称为观察偏倚或错分偏倚。包括以下几个方面。
● 回忆偏倚:指研究对象在回忆以往发生的事情或经历时,由于在准确性和完整性上的差异所致的偏倚。
● 报告偏倚:研究对象有意夸大或缩小某些信息而导致的偏倚。
● 诊断怀疑偏倚:研究者事先已经知道研究对象的暴露史,怀疑他们已经患某种疾病,于是在对暴露者和未暴露者作诊断或分析时,采取了不可比的做法,从而导致偏倚。
● 暴露怀疑偏倚:研究者事先知道研究对象的患病情况,而采用不可比的方法在病例组和对照组中探索可疑的致病因素导致的偏倚。
● 测量偏倚:指对研究所需指标或数据进行测量时产生的偏倚。
对信息偏倚的控制可以采取以下措施:制订明细的资料收集方法和严格的质量控制方法;尽可能采用盲法;尽量收集客观指标的资料;收集资料的范围适当有意识扩大,借以分散调查人员和研究对象对某项因素的注意力,减少某些偏见带来的偏倚;通过调查知情人或采用相应的调查技术,获取正确信息,避免报告偏倚;选择一个与暴露史有联系的鲜明的记忆目标帮助其联想记忆或选择新病例作为对象。
3)混杂偏倚或混杂(confounding):当研究暴露于某一因素与疾病的关系时,由于一个或多个既与疾病有制约关系又与暴露密切相关的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系,这些影响称为混杂偏倚。
混杂因素是指与研究因素和研究疾病均有关,若在比较的人群组中分布不均,可以歪曲因素与疾病之间真正联系的因素。混杂因素必须是既与所研究疾病有关又与研究因素有关,并且不是研究因素与研究疾病因果链上的中间变量。具备了这3个条件的因素如果在比较的病例与对照组中分布不均匀,即可导致偏倚。
混杂偏倚的控制方法主要包括:在设计阶段可采取限制、匹配和随机化分组加以控制;在资料分析阶段可采取对混杂分层分析,或采用多因素数学模型分析,也可进行标准化率分析。
病例对照研究示例
[案例11]上海人工流产与乳腺癌关系的研究
✧ 病例对照匹配方法:以人群的年龄频数进行病例和对照匹配。
✧ 病例来源:基于上海全人群的肿瘤发病报告系统以及计划生育计算机管理系统(含妇女人工流产登记信息)。
✧ 对照来源:通过上海市沪籍管理系统按年龄频数匹配(年龄频数分布和病例组相同)按1∶1比例随机抽取获得。
✧ 研究对象限制:上海常住人口;参照日期(病例乳腺癌诊断日期,病例诊断日期经随机化后分配给对照,作为对照的参照日期)时健在;参照日期无乳腺癌患病史;无精神病史。
✧ 排除对象:非原发乳腺癌(包括复发、转移或其他并发症);参照日期地址无效;不在上海居住者;55岁以上妇女。
✧ 样本量:人工流产史比例P=0.65, β=0.2,OR=1.25,应答率95%,则N=1 556。实际获得病例数1 495人,应答率95.1%;匹配对照1 573人,应答率87.7%。
✧ 暴露史测量:通过育龄妇女计划生育记录系统查获并结合问卷调查信息。
✧ 主要结果:多因素分析结果提示,在中国妇女中,人工流产不增加乳腺癌的风险。
[案例12]英国口服避孕药与静脉血栓的关系(巢式病例对照研究)
✧ 目的:比较目前服用含屈螺酮(DRSP)与含左炔诺孕酮(LNG)口服避孕药妇女静脉血栓发生的风险。
✧ 病例和对照来源:英国家庭医生数据库。2002年5月至2009年9月服用含DRSP或LNG复方口服避孕药,无静脉血栓重要危险因素的15~44岁妇女。
✧ 研究指标:观察时间内发生的静脉血栓。
✧ 主要结果:静脉血栓发病率:含DRSP口服避孕药使用者为23.0/10万(95%Cl:13.4~36.9/10万);含LNG口服避孕药使用者为9.1/10万,(95%Cl:6.6~12.2/10万)。
✧ 年龄校正后发生率比(OR)为2.7 (95%Cl:1.5~4.7),校正BMI后OR为3.3 (95%Cl:1.4~7.6)。
✧ 存在的问题:缺乏静脉血栓家族史等危险因素信息。有1/3病例没有进行验证,而用验证的病例分析在结果没有统计学差异(OR=4.0,95%Cl:0.9~16.5)。病例数少,暴露数据不可靠(回收处方)。
33.1.2.4 现况研究
现况研究又称现况调查或横断面调查,是在某个时点或较短时间内调查和收集特定人群疾病、健康状况及其他相关因素,获得疾病或健康状况的现患率及其在时间、空间和人群间的“三间”分布,以及与哪些因素存在相关关系。由于相关因素与疾病或健康状况在同一次调查中获得,分不清疾病与相关因素在时间上的先后次序,因此一般不能完全表明它们之间的因果关系。尽管如此,现况调查可以为疾病的研究提供线索,建立研究假设。如20世纪80年代初艾滋病的病因假设及2002年我国SARS病因假设均是从现况调查开始。
按方法学分类,现况调查有普查和抽样调查两种。
这里所谓的“普查”有别于人口普查,主要是指在限定人群中每个成员均做调查,普查完成时间以短期内能完成为好,短的可在数小时或数天内完成,大规模的应以2~3个月内能完成为限。我国曾开展过多种寄生虫病、传染病、地方病的普查,对已婚育龄妇女开展定期妇科疾病普查。过去以及现在,我国许多省、市对已婚育龄妇女定期开展“查环、查孕”也可视为普查的一种。普查对象的面广,参与调查的人员多,非常消耗人力、物力。由于面广人多,调查人员的技术和能力可能参差不齐,会严重影响普查结果的可靠性。对任何一项有意义的普查,最好事先开展成本/效益评估,否则普查不可取。
抽样调查是指以抽样的方法,选取一部分有代表性的对象进行的调查。根据调查结果,可估计目标人群患病率和疾病分布的特征。抽样调查的特点是及时、信息量较大,但存在抽样误差,精确性低于普查。一般来说,抽样调查准确性比普查好,省时、省力,且费用比普查低廉,但最大弱点是缺乏对小区域的代表性。抽样调查是现况调查的首选方法。我国卫生部先后于1993、1998和2003年组织了全国第一、二、三次“国家卫生服务调查”。国家人口和计划生育委员会也于1997、2001和2006年分别组织开展了全国“已婚育龄妇女避孕节育率抽样调查”。在美国国际发展署的资助下,全球60多个国家和地区开展了Demographic and Health Survey (DHS)调查。这些调查为各国卫生和计划生育事业以及全球的避孕节育和生育相关决策作出了重要贡献。以下简要介绍抽样调查的原则和方法。
(1)抽样设计的原则
1)应有科学的抽样方法。抽样的最基本原则是随机抽样,即总体中的每一个元素以“已知的非零概率进入样本”。常用的随机抽样方法包括单纯随机抽样、系统抽样、分层抽样、等比例分层抽样、非等比例分层抽样、整群抽样(含分阶段整群抽样)。在研究的探索阶段或者没有合适的抽样框时,也可采用非随机抽样(总体中的元素进入样本的概率是未知的)。不同抽样方法各有优缺点。研究者要在充分权衡各种方法的利弊后慎重选用,或者请有经验的专家参与设计。
2)尽量考虑自身加权,非自身加强样本需要计算权重。计算权重有时是不可能的,自身加权可以避免这个麻烦。如果采用非等比例分层抽样,就需要考虑对样本进行加权,以获得该样本对目标人群的代表性。加权的方法和权重最好在报告中体现。
3)建立或使用一个较完整的抽样框。抽样框是指可以用于选择样本的总体单位的名册或排序编号,创建一个合适的抽样框可能是一个非常辛苦的费时费力的工作。好的抽样框应是对象完整、无重复且最接近调查时状态的数据库。实际工作者常用现成的抽样框。在利用现有的名单作抽样框时,要先对该名录进行检查,避免有重复、遗漏的情况发生,以提高样本对总体的代表性。
4)抽样设计应简单明了,便于制订计划、收集资料和数据分析。
(2)现况调查示例
[案例13]上海市已婚育龄妇女避孕节育抽样调查
为掌握已婚育龄妇女避孕节育状况,上海市每年对常住已婚育龄妇女开展一次避孕节育抽样调查。调查时间选择在每年年中,即6月底。调查对象的抽样方法是以区、县分层的非等比例随机抽样。抽样框采用的是“上海市人口与计划生育综合管理信息系统”,该系统每年适时更新,是一个比较理想的抽样框。样本量是以上一年度每个区、县避孕节育率为计算依据,由于每个区、县已婚育龄妇女数不一样,导致每个区、县合格妇女抽样中的概率不相同。因此,在资料分析时必须对数据进行加权,权重的计算公式为:wti=Pi×N/ni
式中wti表示各区、县调查对象的权重, Pi为各年度各区、县半年度报表人口占全市人口比例,ni为各区、县抽取的样本量,i代表各区、县,N为该年度抽取的总样本量。该权重在数据库中作为一个独立变量,数据分析时使用非常方便。以2011年数据为例,加权后全市已婚育龄妇女综合避孕率为80.17%,比未加权综合避孕率高出3.38个百分点。这主要是因为中心城区妇女避孕率低,权重也低,而综合避孕率高的近郊和远郊权重高。
33.1.2.5 个案报道或系列病例分析报告
个案报道或系列病例分析报告是一种方法学较为简便易行的临床研究方法,但由于缺乏对照,其证据的可靠性较低。但如果能结合临床及其他流行病学资料,个案报道或系列病例分析可以为不明病因或患病危险因素的研究提供重要线索。个案报道著名的例子是反应停(一种缓解早孕反应的药物)与新生儿海豹畸形关系的研究。1959年12月西德儿科医师Weidenbach首先报道了1例女婴的罕见畸形。1961年10月在原西德妇科学术会议上,又有3名医师分别报道发现很多婴儿有类似的畸形。这些畸形婴儿没有臂和腿,手和脚直接连在身体上,很像海豹的肢体,故称为“海豹肢畸形儿”或“海豹胎”。医学研究表明,“海豹胎”的病因是妇女在怀孕初期服用反应停所致。从1956年反应停进入市场至1962年撤药,全世界30多个国家和地区共报道了“海豹胎”1万余例,各个国家畸形儿的发生率与同期反应停的销售量呈正相关,如在西德就引起至少6 000例畸胎,英国出生了5 500例这样的畸胎,日本约1 000余例,我国台湾省也至少有69例。而美国,由于官方态度谨慎,没有引进这种药物,因此,除自己从国外带入服用者造成数例畸胎外,基本没有发生这样的病例(图8-33-9)。
图8-33-9 “反应停”药物致婴儿畸形
引自:百度百科
随着互联网技术的发展,一种新型病例报告系统建立起来了。人们利用计算机技术每天自动从互联网络收集全球有关疾病的病例报道,交有关专家阅读和分析,并写成汇总报告,发布给系统成员。这样就能迅速地发现潜在高危疾病,如H1N1的暴发。现在世界上已经有几个比较成熟的病例收集系统,如Project Argus(Argus)、Biocaster、Global Public Health Intelligence Network (GPHIN)、HealthMap、MediSys、ProMEDmail (ProMED)等。目前,这种系统主要用于急性传染病的监测,可以迅速发现疾病的暴发,提高人类对这些疾病的反应速度,降低这类疾病对人类健康的威胁。或许有一天这个系统会用于避孕药具不良反应监测。
图8-33-10为一假设情况,一种新型疾病的发生往往起始于个案报道,当个案报道比较多,引起更多人的关注,通过用流行病学的方法予以确认,找到病因,并能及时采用预防和(或)治疗措施,发病率便开始下降。如果不能认识该病,任其自行发展,则会产生更多的病例发生。
图8-33-10 疾病识别与预防对疾病发展进程的影响
33.1.3 临床前研究
完整的医学研究包括两个阶段:第一阶段,实验研究,又称为临床前研究(preclinical study);第二阶段,临床试验。本章前文简述了临床试验的设计和分期,本节简要介绍临床前研究及其主要内容。
临床前研究主要包括体外实验、动物实验和标本实验。为申请药品注册而进行的药物临床前研究,包括药物的合成工艺、提取方法、理化性质及纯度、剂型选择、处方筛选、制备工艺、检验方法、质量指标、稳定性、药理、毒理、动物药代动力学等。中药制剂还包括原药材的来源、加工及炮制等;生物制品还包括菌毒种、细胞株、生物组织等起始材料的质量标准、保存条件、遗传稳定性及免疫学的研究等。临床前研究提供人体研究所需的药理和毒理学资料。
与其他药物一样,计划生育药具在进入临床研究前需要进行临床前实验室实验和临床前动物实验。利用细胞、组织、器官及动物等,对计划生育药具的临床前药理和毒理学评价,获得计划生育药具的药效学、药物动力学和毒理学等方面的初步信息,证明药具的有效性和可能适用于人类,确定大概剂量后,才可以在人体进行临床研究。除了包括一般药理和毒理学要求外,对其生殖药理和生殖毒理评价显得尤为重要。
生殖药理学包括药效学研究和药代动力学研究。药效学主要研究药物对生殖过程,包括生殖细胞的产生、发育、精卵结合、着床和妊娠维持等一系列生理活动的影响及其调控机制。根据不同研究目的,可选用合适的动物模型,如用大鼠、仓鼠、豚鼠、兔、猕猴等。具体方法可按照卫生部门颁发的临床前研究指导原则的规定进行,主要研究方法包括抗生育活性测定和内分泌活性测定。
药代动力学研究目的是观察和了解实验药物或生物活性物质在动物体内的吸收、分布、代谢及排泄,为进一步临床研究提供药物的动力学参数、代谢类型,帮助合理选择适当的给药途径和给药方法。研究所用动物和性别应尽量与药效学或毒理学研究所用动物一致,给药途径尽量选用与临床一致。药代动力学研究项目主要有:药代动力学参数(如血药浓度-时间曲线、吸收峰值、达峰时间、半衰期曲线下面积、分布容积、廓清率等)、生物利用度、药物分布、药物排泄、药物与血浆蛋白结合等。
生殖毒理学实验是阐明药物对整个生殖过程是否会产生影响。药物可能引起生殖障碍,可影响配子的形成或生殖细胞受损,其结果可抑制受精卵着床导致不孕,还可影响胚胎和胎儿的发育。如果胚胎死亡可导致自然流产,还可导致胎儿宫内发育迟缓及胎儿畸形。药物对母体的不良影响,可出现妊娠、分娩和乳汁分泌异常、婴幼儿发育异常,甚至引发肿瘤等。
一般将生殖毒性实验分为3类:致畸实验(teratogenicity study)、一代生殖实验(single-generation reproduction study)、多代繁殖实验(multi-generation reproduction study)。
致畸实验是在动物妊娠后一定时期投药,检验药物是否具有使胎儿出现形态学上的异常及功能上的异常。如果对出生后子代的体格发育和行为进行观察和研究,又可称为行为致畸实验(behavioral teratokgical study)。
一代生殖实验的目的是检验药物对动物受胎能力、胚胎发育或死亡、新生仔的发育、畸形,以及性功能、分娩、乳汁分泌等方面的影响,为进一步深入实验提供参考,但不能阐明发生影响的特定时期和原因。
多代繁殖实验的方法与一代繁殖实验相同,但进行传代实验,以检查药物对以后子代的综合影响。药物的投放自交配前开始,雌性动物自离乳后开始投以药物,60~100天交配,并继续投以药物,直至获得预期的子代为止。根据实验的目的,可以进行两代、三代甚至更多代的繁殖实验。经典的多代繁殖实验是三代两窝实验,基本过程是给予雄性和雌性动物连续喂饲染毒,交配后连产两窝。第二窝的子代从出生起喂饲染毒,至成熟后交配也连产两窝。让其第二窝子代染毒,至成熟后交配再产两窝。通过这一实验可以全面了解药物对三代动物的生殖发育的影响。
33.2 计划生育临床研究的统计分析
33.2.1 统计设计基本框架
任何临床研究都离不开统计设计。统计设计必须从研究设计阶段开始,不同专业的医学研究统计设计有相通性,其基本框架如图8-33-11所示。
图8-33-11 医学研究统计设计框架
(1)医学统计设计与研究类型:研究类型往往决定了随后资料的统计分析方法,选择合适的研究类型并采用正确的统计学方法分析,有利于研究成果的认可,并增加论文发表的概率。如平行RCT设计,研究组和对照组特征分布均衡,结果可能用t检验即可,而病例-对照研究就必须考虑控制潜在的混杂因素,需要采用分层分析或多因素分析。许多论文就是因为研究设计和(或)统计方法存在问题而退稿。在进行研究前应详尽了解相关文献后制订细致的研究和统计方案。
(2)医学统计设计中需要注意的几个问题
1)样本量和把握度的考量:临床研究要获得可靠的结果,就必须要有足够的样本量。临床研究的样本量应符合统计学要求(生物统计学指导原则)。国内许多临床科研论文中的样本量未经计算,且样本量一般偏小。如一种IUD与另一种IUD有效性比较,样本量仅为100~200例,观察时间只1~2年,出现有统计学差异的结果几乎没有可能。这样无统计学意义的结果不好下结论,可能是有效性相似,也可能是样本量太小。如果两药疗效实际有差异而结果无统计学意义,则导致假阴性。样本量太小还会导致误差加大,致使率或均数的可信区间变大。临床研究设计一般将出现假阴性的概率定为10%~20%。在统计学中,将实际上有差异而试验能得出阳性结果的可能性称为把握度或检验效能,样本量太小则检验效能差,不容易得到阳性结果而容易得出无统计学意义的结论。因此临床研究中,要使样本量足够大,这样如果两种药物疗效确有不同,得出有统计学意义的可能性就大(把握度大)。但是,样本越大则试验费用越高,操作难度也越大。因此,在开展临床试验前,研究者需根据现有资料给出可接受的把握度,把握度大则计算出的样本量大,把握度小则计算出的样本量小。一般要求把握度在80%~90%,即如果两种药物疗效确有不同,将有80%~90%的机会得出差异具有统计学意义的结论。因此,在试验方案和报告中要写明样本量大小的计算方法、依据及计算结果。样本量通常根据研究的主要指标进行计算,如果有几个主要指标,最好根据每个指标都计算一个样本量,取样本量最大者。
2)随机化:是统计学的基础,随机化方法可以尽可能降低研究中可能发生的偏倚。随机化方法很多,现代多中心临床试验较常用分层随机化和动态随机化。分层随机化是在多中心试验中为各中心分别制订受试者随机分配表(中心分层),在登录中心登录,保证试验组中各中心受试者例数相同或接近,提高检验效能,并消除中心因素对疗效比较的影响,这就是以临床试验中心为“层”进行的分层随机化。对于其他重要因素进行分层可得到更均衡的结果。但分层因素过多,或每个因素的水平过多,会大幅度增加实施难度。动态随机化指在临床试验的过程中,每例患者分到各组的概率不是固定不变的,而是根据一定的条件进行调整。这种方法能有效保证各试验组间例数和某些重要的预后因素接近一致。在一些样本量不很大而基线的某些预后因素对治疗效果影响较大的临床试验中,动态随机化尤为必要。
3)避免偏倚和盲法试验:临床上,疗效的确定性研究(Ⅲ期试验)一定要有对照。同时为了避免偏倚(医师、患者和评定者的偏倚)应采取盲法试验,在试验进行中可设有期中分析。期中分析可以确定试验是否继续进行,样本量是否要修改等。但考虑由于多次观察,需调整每次期中分析检验水准α,以保持α为原来设定的水平(如0.05)。为避免偏倚,期中分析需要由独立数据安全监察委员会来揭盲,试验是否进行期中分析要在方案中预先确定。
4)统计检验结论的正确表述:在统计学检验中检验水准α一般设为0.05,P>0.05表示结果无统计学意义,P≤0.05表示结果有统计学意义。而当统计学检验得出P>0.05时,不能说两种药物的疗效相同,可以说两药疗效无统计学差异。当P<0.05时,推翻了两总体患病率相同的结论,可以认为两总体患病不同,但不能说两总体患病率相差很大。P值越小越有把握认为两总体患病不同,但不能得出两总体相差越大的结论。推翻无效假设只能表示两组总体参数不相等,并不表明两组相差很大,两组相差是否很大,要对可信区间比较后才能得出。由于统计检验的结果不能得出差别大小,因而差异的统计检验结论就不能表述为“有明显差别”或“有显著差别”,也不能表述为“差异非常显著”或“差别明显”。当P<0.05时,应表述为“组间差异有统计学意义(或高度统计学意义),而不应表述为“组间具有显著性(或非常显著性)差异”。
统计方法作为一种获取信息和科学研究的工具与作出决策的依据,其在临床医学研究中的重要性正被越来越多的研究者所认识。统计学与医学科研实际相结合,注意统计知识的整体性与连贯性,将科研统计设计与数据统计有机结合,对于医学研究的顺利完成有着重要意义。
33.2.2 常用研究设计样本量计算和主要统计指标
(1)样本量:样本量的计算是临床研究设计最重要的问题之一。为了保证研究结论的可靠性,在临床研究设计阶段需要确定研究或调查所需的最低观察对象数量。样本含量少,研究结论不可靠。样本含量过多,造成人、财、物的不必要浪费。可以依靠统计理论来计算达到研究目的所需要的最小样本量。考虑到客观条件、研究性质和有效的资源,最终的样本量既要满足统计学要求,又要切实可行。
样本量大小与下列因素有关:①试验设计类型,如RCT、队列研究、病例-对照研究、横断面研究等;②主要变量的性质,如数值变量、分类变量;③临床上认为有意义的差值d,视研究指标和研究目的而定;④Ⅰ类(α)错误、Ⅱ类(β)错误大小。
在研究设计阶段,可以应用统计公式计算达到期望达到的统计把握度时所需的样本量。统计的假设检验是确定样本量和评价把握度的基础。
(2)假设检验:亦称显著性检验,它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
假设检验的基本思想是小概率反证法思想,小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。研究者首先提出检验假设(又称无效假设,符号为H0)和备择假设(符号为H1)。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的。
H1:样本与总体或样本与样本间存在本质差异。
检验假设示例
[案例14]2根型与6根型皮下埋植剂1年避孕有效性比较检验假设为:
H0:2根型皮埋1年避孕有效性与6根型皮埋1年避孕有效性相同。
H1:2根型皮埋1年避孕有效性与6根型皮埋1年避孕有效性不同(2根型有效性可能大于也可能小于6根型,应该用双侧检验进行样本量估计)。
或H1:2根型皮埋1年避孕有效性低于6根型皮埋1年避孕有效性(可以用单侧检验计算样本量)。
[案例15]两种口服避孕药静脉栓塞风险比较的队列研究
H0:使用含屈螺酮口服避孕药与使用含左炔诺孕酮口服避孕药妇女的静脉血栓发病率相同。
H1:使用含屈螺酮口服避孕药与使用含左炔诺孕酮口服避孕药妇女的静脉血栓发病率不同。
[案例16]口服避孕药与静脉血栓的关系病例-对照研究
H0:静脉血栓妇女与对照妇女暴露于口服避孕药的比例相同。
H1:静脉血栓妇女与对照妇女暴露于口服避孕药的比例不同。
(3)假设检验结果的判定:统计分析需要利用收集到的资料计算统计量,根据统计量推断出的概率大小来决定是接受还是拒绝无效假设。如果所得概率P>0.05,通常接受H0,拒绝H1,即认为两者间的差异无统计学意义,可以认为两者间的差异是由于抽样误差引起的。反之,如果P<0.05,则拒绝H0,接受H1,即认为两者间的差异有统计学意义,可以认为两者存在本质差异。而概率P=0.05则认为处于临界状态,下结论需要慎重。需要强调的是,多小的概率才可以称为小概率事件并无绝对的标准。视0.05为小概率判别标准是一种通用做法,也可以选择0.01或者0.1。英国优生学家、遗传学家、生物进化学家兼统计学家Ronald Aylmer Fisher是世界上首个提出用P值判定无效假设成立与否的学者。但他也提出,不能仅依赖P值判定无效假设,还需要结合其他证据判断无效假设是否成立,如研究结果的合理性、结果的强度等。
(4)单侧或双侧检验的选择:统计分析时还需要考虑使用单侧还是双侧检验。如果检验的目的是检验抽样的样本统计量与假设参数的差数是否过大(无论是正方向还是负方向),就将风险平分在右侧和左侧。如显著性水平为0.05,即概率曲线左右两侧各占0.025,此为双侧检验。但如果只关心估计值是否偏高或偏低:如只关心偏低,则临界值在左侧,称为左侧检验;如果只关心偏高,则临界值在右侧,称为右侧检验。两者均为单侧检验。
(5)Ⅰ类和Ⅱ类错误:假设建议的推断结论并非绝对正确,结论有时也可能有错误,错误分为Ⅰ类和Ⅱ类两类。①Ⅰ类错误(typeⅠerror)是指当原假设H0为真而拒绝原假设的错误(“去真”)。其概率通常用α表示。一般规定0.05或0.01,其意义为:假设检验中如果拒绝时,发生Ⅰ类错误的概率为5%或1%,即100次拒绝的结论中,平均有5次或1次是错误的,95次或99次是正确的。可见α越小,犯Ⅰ类错误的概率就越小。②Ⅱ类错误(typeⅡerror)是指不拒绝实际上不成立的H0(“存伪”),其概率通常用β表示。(1-β)又称为把握度或检验效能。如果两总体参数实际有差异(H1成立),按α水准,假设检验能发现这种差异的能力(真阳性)。表8-33-5显示了研究推论与真、假无效假设的关系。
表8-33-5 假设检验和可能的结果
图8-33-12表现了两个均数(一个均数已知,一个未知)比较假设检验的关系。从未知总体中随机抽样,若为单侧检验,从图8-33-12(c)中可以清楚地看出两条曲线下α与β的意义:即H0成立,但被错误地拒绝的概率α;H0不成立,但不被拒绝的概率β。
图8-33-12 样本均数与总体均数比较假设检验示意图
根据统计量所做的统计推论,不管α和β多小,仍有可能下错结论。因此,接受无效假设并不能证明该假设为真;拒绝无效假设也不能100%的肯定该假设是假。需要从统计学的角度辨证地看问题。
为了减小Ⅰ类错误,显著性水平应该适当取小,如α=0.05,当样本量增大时,统计检验更容易检验出不同治疗或暴露水平结果之间的细小差异。因此,更容易拒绝无效假设。应该对样本含量加以限制,能够发现有实际意义的差异即可。如果无效假设实际为假,正确拒绝它的概率(1-β)主要依赖于样本量,样本量越大,该研究的把握度越大。足够的把握度能检验出不同治疗或暴露水平结果间实际存在的差异。如果一项研究的把握度不大,所得结果没有显著性的原因既可能是无效假设实际为真,也可能是把握度不够所造成的。通常要求达到80%或90%(即β=0.2或β=0.1),不要低于75%。
把握度是解释两组治疗或暴露无临床重要差异的关键。多大的差异具有临床意义由研究者在研究开始之前确定。
(6)常见临床研究样本量计算公式:确定适当的样本含量,可节约资源,并防止因为样本含量过少引起的检验效能偏低,出现了非真实的阴性结果,这是当前医学研究中值得注意的问题。前面已经介绍了几个影响样本量估计的重要因素,以下介绍如何进行样本量估计。
有些统计学教材提供样本量便查表,但使用范围有限。使用建立在一定理论基础上的统计公式计算样本量更为常用。这对于临床医生而言可能会有一定的难度,如果没有把握,在课题设计阶段,最好请有经验的流行病学或统计学专家帮助解决。
样本量的估算方法很多,不同研究设计、不同统计指标类型等使用的计算公式也不一样,表8-33-6和表8-33-7所示分为临床研究常用计量和计数资料样本量计算公式。
表8-33-6 临床研究常用计量资料样本量计算公式
表8-33-7 临床研究常用计数资料样本量计算公式
续 表
在实际工作中有时很难用个体随机化进行抽样或干预,用整群抽样会随机比较合适。群体随机化设计随机单位不是个体,而是群(cluster),群可以是家庭、社区、工作单位等含多个个体的单位。由于同一个群内的个体可能存在某种程度的相关或相似性,用建立在个体是相互“独立”基础上的标准统计方法进行研究设计和资料分析并不适宜。这是因为存在关联的个体提供的信息比相互独立个体提供的信息量少。组内个体相互关联的程度通常用希腊字母ρ表示,ρ=0表示无相关,即组内个体间相似性与组间个体间相似性没有差别;ρ=1表示完全相关,表明组内个体间几乎没有差异。因此ρ值在0~1之间。
最简的群体随机化设计样本量计算方法是:
群体抽样设计样本量(C)=个体随机化样本量(n)×设计效应(deff)
设计效应(design effect,deff)实际上是群抽样变异度(variance)与个体随机抽样变异度之比,也即因群体抽样设计变异可能增加的程度。对于只有一个阶段的群体抽样调查,假定每个群大小相等,为m,设计效应计算公式为:
Deff=1+(m-1)ρ
群体随机化设计需要同时考虑群的大小以及群的多少。我们先考虑需要多少个群的计算方法。已经有不少学者介绍了几种计算公式,有的利用了组内相关,有的利用了组间变异。这里介绍一种利用组间变异比较率或比例的群样本量计算公式。
率的比较:设c为治疗组所需群数,λ0和λ1分别为干预组和对照组的期望率,y代表每个群随访的人年数(假设所有的群大小相等),则有:
C=1+f[(λ0+λ1)/y+k2(λ20+λ21)]/(λ0-λ1)2
比例的比较:设c为治疗组所需群数,π0和π1分别为干预组和对照组期望比例,m是每个群所含个体数量,则有:
C=1+f[π0(1-π0)/m+π1(1-π1)/m+k2(π20+π21)]/(π0-π1)2
上述2公式中,f因子与研究把握度有关,当把握度为80%时,f=7.84,如果将把握度定位90%,f=10.50。k是组间率或比例的变异系数,可以用标准差除以均数计算(CV=SD/mean)。
示例:
在某非洲国家进行HIV干预试验,对照组HIV年发病率预计为1%,样本量计算时把握度设为80%,通过干预,HIV发病率下降一半,每个社区人口为1 000,随访2年,于是有:
λ0=0.01,λ1=0.005,
y=2 000,f=7.84
k值假设为0.25,由于标准差SD=CV×平均发病率,相当于SD为0.002 5,换句话说,相当于假设对照组社区HIV发病率在0.5%~1.5%之间,干预组HIV发病率在0.25%~0.75%之间。使用率的比较公式可得:
C=1+7.84[0.015/2 000+0.252(0.012+0.0052)]/0.0052=5.8
因此干预组和对照组各需要6个社区。
将群体随机化与个体随机化样本量进行比较,群体随机化每组样本量约为5.8× 2 000=11 600个观察人年,用个体随机化估算的样本量为4 704人年,可得本群体随机化的设计效应为11 600/4 704≈2.5。
33.2.3 统计分析
(1)临床试验数据的管理与准备:统计分析前一般首先进行查看每个变量(或称字段)的频数,特别关注异常数据和非正常数据缺失、差错。在此基础上进行逻辑校对,找出并纠正不符合逻辑的数据。例如,在一次避孕节育抽样调查中,某些未避孕的妇女在未避孕的原因中填写“已做结扎”,显然这些对象的避孕状况应修订为“已避孕”。但并非每个逻辑校对发现的错误都能进行纠正。如果出现这种情况,首先考虑这些错误数据能不能、有没有必要重新调查,尽量设法弥补。当不能弥补时,应将该数据视为缺失。缺失数据在一定的范围内可考虑根据现有数据的分布,对缺失数据进行弥补。但这仅是没有办法的办法,应尽量保证数据的正确无误。对于重要的数据,通常在数据输入前对建立数据库输入校对文件,设立数据输入范围以及数据输入时自动进行某些逻辑校对。所有数据由2人背对背独立各完成一遍输入。数据录入结束后(在录入过程中也可)进行2人输入的数据库一致性检验。挑出不一致的记录和变量进行核对和校正。
经过上述检查无误后,将数据库锁定,即可进行数据分析。规范的临床试验公司对数据管理与分析都有比较严格的制度,数据保管与质量比较安全、可靠。但是,一般临床医师很难做到这一点。因此,特别建议要对原始数据进行备份,在备份的数据库中进行数据质量检查和逻辑校对。数据库锁定后,对锁定的数据库再进行备份,在备份的数据库中进行数据分析。这样做是因为人性都存在弱点,很难做到数据库百分之百的正确和完整,在数据分析时经常需要根据原始数据产生新的分析变量,根据统计分析的习惯,有的将新产生的变量保存在数据库中,有的不保存。保存的好处是下次分析时可以直接用新生成的变量进行统计分析,但是如果不是保存在新生成的变量,就可能将原数据库信息替换,造成数据不可复原。
(2)临床试验数据分析集:RCT试验采用了随机和盲法,避免了可能出现的许多偏倚,但是由于种种原因,受试者可能失访、拒绝继续参加或缺席其中几次观察或检测等,造成中间结果甚至研究结局数据缺失。对于这些违反研究设计方案的受试者是否应纳入分析需要慎重。在研究的统计设计阶段,就应考虑如何减少失访、提高依从性,同时要阐述出现违反方案的具体类型、频度及其处理方法,以及对试验结果的可能影响等。根据是否纳入违反设计方案对象开展数据分析,通常将临床试验数据分析分为以下4种类型。
1)意向性分析(intention-to-treat,ITT):是指分析应包括所有的随机化后的受试者,即原计划处理(治疗)的全部受试者。按这种原则所做的分析保持了随机化结果,符合随机原则,是最好的分析。每一位随机分到试验组或对照组的受试者都应完整随访,记录研究结果,如疗效、安全性评价,而不管依从性如何。
2)全分析集(full analysis set,FAS):是指尽可能接近符合ITT原则的理想受试者人群。它应包括几乎所有的随机化后的受试者,只有在导入期中被排除而未入组或入组后没有任何随访数据才能从全分析集人群汇总排除。
可以从全分析集中排除的情况包括:①在筛选期中被排除而未随机化后入组的受试者;②在入组后没有任何随访记录的受试者;③不满足主要的入选标准。
3)符合方案集(per protocol set,PPS):符合方案集是全分析集的一个子集,在这个数据集中每位受试者是依从性好,不违背设计方案。
可以从符合方案集中排除的情况包括:①主要指标治疗前无基线值;②严重违背方案;③依从性差。
4)安全性数据集(safety set):安全性评价的数据集通常包括所有随机化后至少接受一次治疗的受试者。用于对安全性评价指标进行分析。
对于优效性假设检验,一般用全分析集作为主要分析集,检验结果较为保守,若使用符合方案集可能会高估疗效;而对于等效性或非劣性假设检验,使用全分析集的结果一般并不保守。
(3)确定统计分析的指标:确定主要指标、次要指标等内容,对复合指标应说明量表的依据及计算方法,当其中某个单项指标具有重要临床意义时也可做单独分析。对全局评价指标,即根据症状、体征、临床检验、病原病理学检查的综合结果对药物疗效所做的全局评价,全局评价指标的等级划分应有充分的依据,自定的等级标准除非有充分依据,否则不宜使用。若该指标含有一定的主观成分,最好同时将其中的客观指标作为主要指标或重要的次要指标,单独加以分析。
(4)数据类型:数据(data)是统计分析的基础,统计分析方法的选择首先取决于不同的数据类型。最常见的数据类型有两种,定量数据(或称为计量数据)和分类数据(或称为定性或计数数据)。定量数据又可分为连续性数据如年龄、身高、体重、血压,以及不连续性或称离散数据如妇女的产次、疾病的复发次数等。分类数据类型又分为无序、有序和多分类数据。无序数据如性别(男、女)、职业(白领、蓝领)、血型(A、B、O、AB型)等。有序数据如教育水平(小学、初中、高中、大专、大学、研究生)、肿瘤分级(Ⅰ级、Ⅱ级、Ⅲ级)、疼痛程度(轻、中、重)等,以及在临床研究设计中,经常看到的“非常好”、“好”、“一般”、“差”这样的数据类型。
(5)统计描述
1)定量资料统计描述:图8-33-13概括了定量资料常用主要统计学描述方法。
这些方法的适用条件有所不同,介绍如下。
算数均数:适用于对称分布资料,尤其是正态分布或近似正态分布的资料。
几何均数:适用于原始资料不对称,但经对数转换后呈正态分布的资料或用于等比技术资料,如血清滴度资料分析。
图8-33-13 定量资料的统计学描述
算术均数和几何均数均未考虑抽样误差,为样本资料直接计算的总体均数的点估计。如果要使均数估计可信,就必须考虑抽样误差。通常根据抽样分布理论,计算总体均数的95%可信区间(其意义为:重复100次样本量相同的抽样,理论上有95个可信区间包含了总体均数)。准确性和精确性是可信区间最为关注的问题。准确性常与研究的问题和研究设计有关,研究的问题需要研究者自行判断,随机抽样或随机分配研究对象有利于提高研究结果的准确性。精确性与个体变异度和样本量大有关。个体变异度越大,区间越宽;样本量越大,区间越窄。
中位数:资料分布不限。常用于描述偏态分布资料的集中趋势,或无确切最大或最小值的开口资料,或有极大或极小可疑值的资料。
极差:资料分布不限,描述数据分布范围,极差大说明数据分布离散。
四分位数间距:四分位数是将数列等分成4个部分的数,四分位数间距是上四分位数与下四分位数之差,用以反映变异程度的大小。其应用资料分布不限,四分位数间距越大,说明数据离散程度越大。
方差、标准差、标准误:适用于对称分布资料,尤其是正态分布或近似正态分布资料。样本方差与总体方差常用S2与σ2表示,标准差为方差的平方根,表示个体数值与样本均数间的离散程度。方差或标准差越大,说明数据分布离散程度越大。标准误为均数的标准差,表示样本统计量与总体参数间的离散程度,标准误越小,总体均数的95%可信区间越窄。临床研究论文中常采用均数±标准差或均数±标准误来表示定量数据的分布特征。对于非对称数据只用均数±标准差或标准误表达是不恰当的,可以采用中位数结合四分位数间距表示。
变异系数:常计为CV,是标准差与算术均数之比,描述了数据变异相对于其平均水平的大小。适用于量纲不同的变量间比较或均数差别较大的变量间变异程度比较。
2)定性资料统计描述:计数资料也可用统计图表进行描述,如描述计数资料的频数、构成比。其优点是直观,统计表信息量大。用一些相对数描述定性资料的价值往往比绝对数大,如比、构成比、率等。
比:可以是两个性质相同或不同指标之比。如人工流产活产比就是将人工流产数除以同一时期活产数所得的数值,表示某人群某时期人工流产与活产相对情况。往往年轻妇女人工流产活产比较小(一般<1),提示年轻妇女的妊娠多数以活产终止。年龄较大妇女,如年龄>40岁的妇女,人工流产活产比较大,提示该年龄组妇女的妊娠多以流产终止。
构成比:描述某事物内部各部分所占比重。计算方法为某组成部分观察对象数除以观察对象总数。例如,上海市2012年避孕节育抽样调查发现,已婚育龄妇女中IUD使用比例为43.87%,男用避孕套使用比例为25.27%,女性绝育比例为6.82%,口服避孕药使用比例为3.16%,1.45%的妇女使用安全期避孕,外用药比例为0.41%,男性绝育比例为0.39%,皮下埋植比例0.11%,避孕针比例0.05%,其他避孕方法比例0.08%,另有18.38%的已婚育龄妇女未避孕。
率:严格来讲,率是指观察一段时间后某事件在相应人群中发生的概率,用于说明某个事情某个事件发生的频率或强度。率一般具有时间概念,计算时,分子是某时期内发生某事件的观察对象数,分母是同时期开始时的观察对象总数。在实际工作中,有一些“率”实际上是构成比,如避孕现况调查报道的已婚育龄妇女避孕率实际上是调查时点已婚育龄妇女中避孕对象的比例,是静态的。还有一些“率”实际上是比的指标,如婴儿死亡率,是当年死亡婴儿数与当年活产数之比,所以分子不一定都是来自分母,因为有的死亡婴儿可能是生于去年。后两种“率”不能简单进行可信区间的计算。进行总体率的比较需要注意构成比的差别,例如,两个人群避孕失败率或避孕措施停用率比较,如需要注意两个人群避孕措施使用的构成是否一致,因为长效避孕措施有效性更高,续用时间更长,此时可用标化率进行比较。临床研究中,样本量较少时不能仅报告率,因为其抽样误差较大,率的可信区间会很宽。
(6)统计推断:通过假设检验作出统计推断。假设检验与可信区间都是基于抽样误差理论,是对同一个问题两个不同角度进行的分析和报道方法。可信区间不但能回答假设检验的问题,还能提示差别有无实际意义,建议临床研究者尽量采用。用于统计学检验进行统计推断的方法有很多种,如定量指标(如均数比较)统计学检验方法有t检验、t′检验、u检验、方差分析、q检验等,定性指标(率的比较)统计学检验方法有χ2检验,定性和定量指标均可用秩和检验等。限于本书篇幅关系,不作详细介绍。以下就如何选择一些常用统计学方法进行简要介绍,其主要目的是帮助读者根据自己的资料选择适当的统计学方法,至于具体怎么应用,由于内容繁多,且统计理论对多数临床医生来讲比较复杂,本文不做详细介绍。感兴趣的读者可以参阅相关统计教材。
1)定量数据常用统计推断方法:单组资料数据如果呈正态分布,则采用单样本t检验(One-Sample t Test);如果数据呈非正态分布,可以采用相应的非参数统计方法Wilcoxon符号等级检验(Wilcoxon Signed-Rank Test)。两组资料的比较,如果数据分布特征呈正态,可选择两样本t检验(Two-Sample t Test),配对设计资料可以配对t检验;如果数据呈非正态分布,则选择Wilcoxon等级秩和检验(Wilcoxon Rank Sum Test)。
2)分类数据分析和统计推断方法:总体率的估计可用查表法(样本较小(n≤50),且样本率(p)接近0或1时可用)。当n较大,且p和1-p均不太小时(如np与n(1-p)均>5),样本率p的抽样分布近似正态分布,可按正态近似法求总体率的可信区间。
3)相关分析(Correlation analysis):许多临床研究涉及对一组研究对象2个连续性变量的相互关系的研究。如身高与体重的关系,用药剂量与血清中药物浓度的关系等。
4)生存分析(Survival analysis):生存分析的目的通常是为了描述研究人群的事件发生时间(suvival time,生存时间)的分布特征,比较不同组的生存时间或研究生存时间是否与研究变量有关。常见于分析一段时间后的生存或死亡,避孕药具的失败、停用或续用等,如比较不同类型IUDs失败率。
开展生存分析必须了解以下几个基本概念:
死亡概率:这里的死亡可以是单纯意义上的“死亡”,也可以指任何研究者关心的某一事件的发生,比例避孕药具的失败。死亡概率是指某时间区间内观察对象死亡的可能性大小,常记为p。
生存概率:与死亡概率相反,生存概率指某时间区间内观察对象生存的可能性大小,常记为q,可见q=1-p。
生存函数:又称生存曲线或累积生存概率。指观察对象在观察满时间t后继续生存的概率,常记为S(t)。例如,OCs1年续用率表示使用OCs超过1年的概率。如果以1个月为间距逐月分析OCs续用率,将所有时间点的续用率连成线,就可以反映OCs使用的动态过程。
截尾数据:也称为删失数据,指在观察对象在“死亡”或观察结束前丢失了。例如,观察OCs使用者的失败情况,但是由于观察对象搬家等原因失去联系造成失访,或因意外死亡或因患严重疾病停止使用OCs,因此观察对象提供的信息不全。这类对象贡献的“观察时间”常打折扣。比如,OCs使用者在随访满9个月后在第10个月期间失访了,第10个月可认为其贡献了0.5个观察人月。
估计生存率的方法有多种,在临床研究中常用估计生存率的方法有Kaplan-Meier法和寿命表法(Life Table)。在计划生育临床研究中常用珀尔指数(Pearl Index)和寿命表法。
5)多因素分析(Multivariable analysis):临床研究与有严格实验条件控制的动物实验不同,除了研究的因素外,常需要控制许多混杂因素或协变量,统计分析可采用分层分析,或使用数学模型对协变量进行校正。分层分析,如M-H分层分析,受到样本量的限制,往往只能选择少数变量进行分层,分层变量越多或分层变量类别数(category)越多,则底层的样本量越少,样本量过少可导致数据的代表性下降,分析结果无意义。如果需要同时控制多个协变量,可借助数学模型进行多因素分析。多因素分析可以同时控制多个混杂因素,从而确定影响因素对研究结果的独立作用,还可分析不同因素间的交互作用。这类统计学方法很多,应用也比较复杂。常见的多因素分析模型有:应变量是连续型(定量)数据的协方差分析(ANOVA,Analysis of Covariance)、多重线性回归模型(Multriple linear regression),应变量是分类数据的Logostic回归(Logistic regression)、Poisson回归(Poisson regression)、Cox比例风险模型(Cox proportional hazards model)等。
多水平数据(Multilevel data)及重复测量数据(Repeated data)分析:在医疗卫生以及计划生育研究中,许多数据存在层次结构,此类数据的主要特征是应变量的分布在个体间不具备独立性,它们在一定的地理区域、行政区域、特定的空间或时间范围内可能存在聚集性(clustering)。例如,在临床试验中,医院可能选择病人,病人也可能选择医院,不同医院患者的特征就可能不一样,三甲医院重病患者比例可能较高,城市和农村医疗机构服务对象的文化水平和经济水平存在显著性差异等,因此一家医院自然就形成一个群(cluster),同一个群内患者的一致性可能要高于不同医院的患者。如果将患者个体视为水平1,医院就是水平2。在计划生育领域,不同地区避孕药具推广策略不一样,因此不同地区妇女避孕方法的选择就不一样,单个育龄妇女可视为水平1,地区可视为水平2。再如,任何妇女都不大可能一辈子只使用一种避孕方法,即使仅用一种方法,当发生妊娠时,必然会中断使用该方法。如果分析自然状态下避孕方法的有效性、安全性等问题,同一个人在第二次、第三次……第n次使用的方法必然会受到以前使用经验的影响,因此,同一个对象不同阶段的避孕资料也不具有独立性,这时每位育龄妇女可视为水平2,每次使用的避孕方法可视为水平1。重复测量资料也可视为多水平资料,如婴幼儿生长发育情况、临床试验中的自身对照或交叉对照实验数据、对同一批受试者连续多次随访,动态评价药物疗效等。同一个受试者所测得的数据存在相关倾向,可把每次测量资料视为水平1,同一个体视为水平2,还可视个体水平以上是否存在时空等聚集性划分出水平3等等。
应用多水平模型处理重复测量和多层次数据的重要性越来越受到广大学者的重视,多中心临床试验和meta也可使用该方法进行数据分析。不过,该项技术的熟练应用尚存在一定的技术门槛,本文仅仅是将该问题向读者提出,建议在有使用的需要时向有这方面经验的专家咨询。
(7)临床试验可比性分析常见内容:在分析和比较试验组和对照组主要和次要指标之前,需要先比较和确定用药前两组间是否具有可比性,内容一般包括:
1)人口学特征比较:性别、年龄、体重、身高等。
2)生命体征比较:体温、血压、脉率等。
3)疾病情况比较:病种、病型、病期、病程、病情轻重等。
4)治疗前影响因素分析:对可能影响本项临床研究疗效的因素如初诊、复诊等,也应进行组间可比性分析。
(8)临床疗效分析:确定试验组与对照组的可比性之后,再进行两组的临床疗效分析。主要包括以下几个方面。
1)主要指标分析:对主要指标可从多角度进行分析。如比较均数及标准差、中位数、最小值和最大值、达到某一规定值的百分比、出现疗效的时间等。对主要指标应列出各分中心数据,并进行多中心的方差分析。
2)次要指标分析:可列表逐项报告各组用药前后的数据(均数、标准差),并用变化值、变化率进行组间比较。各症状体征的缓解率、缓解程度及缓解时间等。
3)全局评价分析:由全局评价指标评出疗效等级,供临床判断总疗效而提供的统计分析。应列表报告各组各个等级的例数、有效率、痊愈率,并报告统计学分析结果。多中心临床研究应列表报告各中心的数据,并对各中心研究结果的一致性进行统计学分析。
4)治疗中影响因素分析:如合并用药情况、合并疾病情况等。
(9)统计分析结果表述:统计结果的表述应简洁、明了,辅以统计表、统计图。表格应有充分的自明性,包括简明的表题、检测项目、检测例数、统计参数(均数、标准差,或百分率及其95%可信区间)、统计量(如t值、卡方值等)、统计结果及统计意义。每张表格下应有简单的注释,说明对比的组别、统计方法及统计符号的意义。
(10)计划生育临床研究常用有效性评价统计方法介绍
1)珀尔指数(Pearl index):珀尔指数是1933年由Raymond Pearl创立,很长时间以来它是临床研究中评价计划生育药具有效性的最常用指标,其基本定义为每100妇女观察满一年避孕失败例数。其意义为,假定研究者随访100名使用某种避孕药具的育龄妇女,在观察期内她们进行有规律的性生活,满12个月后这些妇女中避孕失败(怀孕)的例数。珀尔指数越小,表示避孕有效性越高。该指数计算简单,基本计算公式如下:
从上述公式可见,计算珀尔指数需要从临床试验中获得以下3类数据:①研究中总的观察人月数或者妇女月经周期数;②观察期妊娠数;③避孕药具停用原因(如避孕失败或其他原因)。
因此有两种方法计算珀尔指数。一种是用观察到的妊娠数除以观察总人月数再乘以1 200(表示100名妇女观察满1年);另一种是用观察到的妊娠数除以观察期内妇女月经周期总数再乘以1 300。方法二用1 300代替方法一的1 200是基于妇女的平均月经周期约28天,因此一名育龄妇女一年可有13个月经周期。
需要注意的是,评价避孕药具失败率存在两种情况,一种是正确使用(perfect use)失败率(method failure rate),在所有遵从避孕药具的使用方法并且坚持使用的对象中计算所得的避孕失败率;另一种是使用者实际使用(actual use)失败率(user failure rate),即包含研究中所有失败和观察人月(或月经周期),而不论使用者是否正确使用了该避孕方法。避孕失败受观察人群的特征影响较大,比较不同人群中获得的避孕失败率需要注意人口特征的不同。
珀尔指数存在一个较大缺陷,它假定避孕失败率在观察期内保持恒定。在避孕药具有效性的研究中该假设是无效的,因为生育力高的对象容易失败,因此生育力相对低的对象观察时间长。有经验的使用者不容易失败,使用时间越长,越不容易失败。所以,对于观察时间较长的临床研究,最好分时间段计算珀尔指数,如半年、1、2、3、4和5年的珀尔指数。
珀尔指数也不能对避孕失败以外的影响因素提供有价值的信息,如避孕药具的满意情况、不良反应、失访情况等。这些因素可以影响避孕有效性。因此,越来越多的统计学者逐渐放弃了珀尔指数而采用寿命表法评价避孕药具的有效性,因为后者不含避孕失败恒定的假设。
2)寿命表法介绍:寿命表最早用于生命与死亡的研究,随后逐渐发展到与时间有关的其他方面的研究,包括避孕失败和停用。经过多年的发展,人们已经开发出多种寿命表用于不同需求的资料分析。本文通过举例,详细说明单终止寿命表、多终止寿命表和去因单终止寿命表的计算方法及其应用。
● 单终止命表法(Single-decrement life tables):寿命表法用于避孕方面的资料分析时,通常是将避孕药具使用时间按月进行分割,计算每个月使用某避孕药具的人月数,其中使用该药具满或超过该月的对象计为1,未满该月的对象,如失访对象,通常假定只观察了半个月,记为0.5,合计获得该月总的使用人月数。用此数据计算避孕失败率或停用率的分母,分子即为该月避孕失败或停用的人数。为便于理解,本文通过一个简单的例子说明single-decrement寿命表法的应用。
假定我们观察了100名育龄妇女口服避孕药的使用情况,在随访过程中,有7名妇女第一个月内停用了口服避孕药,另有3名妇女在第一个月内失访。第二个月5名对象停用,5名对象失访,以此类推,我们观察并记录了100名妇女6个月口服避孕药的停用和失访情况,具体数据见表8-33-8。
表8-33-8 单终止寿命表中育龄妇女口服避孕药停用和失访情况
表中人月数的计算方法如下:
第1个月(起始月是0)观察人月数Nx=100-3/2=98.5。
100表示期初观察对象100名,3/2表示3名失访对象按观察半个月计算,因此第一个月观察人月数是98.5。
第2个月(起始月是1)观察人月数Nx=90-5/2=87.5。
90表示第2个月期初观察对象是90名(因为10名对象第一个月失访或停用),5/2表示第2个月有5名对象失访,观察时间只能减半计算,因此第2个月观察人月数是87.5。以此类推可获表中其他各月的观察人月数。
各月内口服避孕药的停用率计算方法为用该月的停用人数除以该月的观察人月数,即1qx=Dx/Nx。1减停用率即是当月的续用率,即1px=1-1qx。例如:
第1个月内:停用率=7/98.5=0.071 1,续用率=1-0.071 1=0.928 9
第2个月:停用率=5/87.5=0.057 1,续用率=1-0.057 1=0.942 9
进一步我们可以计算累积续用率,其计算方法是将n个月内续用率连乘。
即np0=∏pi=p0·p1…pn-1。n月累积停用率=1-np0,例如:
第2个月:累积续用率 =0.928 9× 0.942 9=0.875 9,累积停用率 =1-0.875 9=0.124 1
第3个月:累积续用率 =0.875 9× 0.921 1=0.806 7,累积停用率 =1-0.806 7=0.193 3
通过类似计算,我们可以获得表8-33-9各栏数据。
● 多终止寿命表法(multiple-decrement life tables):在现实生活中,避孕方法停用的原因有很多,例如,避孕失败、打算怀孕、严重副反应、无性生活等。当如果需要计算不同停用原因的停用率时,可以应用一种被称为多终止寿命表的方法进行。该方法起源于计算不同死亡原因的研究,可以拓展用于避孕药具不同停用原因的停用率计算。我们仍然通过上述假设的例子介绍该方法的应用。
表8-33-9 单终止寿命表法累积停用率和累积续用率计算方法
假定表8-33-8中口服避孕药停用的人数不变,停用的具体原因如表8-33-10,例如,第1个月停用的7名妇女中,2人因避孕失败,3人因副反应,另有2人因其他原因停用了口服避孕药。失访人数也不变。
表8-33-10 多终止寿命表中育龄妇女口服避孕药各停用原因、失访情况
多终止寿命表不同停用原因停用率的计算就是将某月因该原因停用人数除以该月观察人月数。例如:
第1个月:避孕失败停用率=Dx/Nx=2/98.5=0.020 3
不良反应停用率=Ax/Nx=3/98.5=0.030 5
其他原因停用率=Ox/Nx=2/98.5=0.020 3
第2个月:避孕失败停用率=1/87.5=0.011 4
不良反应停用率=2/87.5=0.022 9
其他原因停用率=2/87.5=0.022 9
可见,各月合计停用率与单终止寿命表结果完全一样,这是因为合计停用人数相同。
计算因某种原因停用的累积停用率稍有复杂。以避孕失败为例,其计算公式为:
第n个月累积失败率=第(n-1)个月累积失败率+第(n-1)个月累积续用率×第n个月避孕失败率,即=x-1D0+xp0×dx。以计算第二个月累积失败率为例:
第二个月避孕失败停用率=第一个月累积避孕失败停用率+第一个月累积续用率×第二个月避孕失败停用率=0.020 3+0.928 9× 0.011 4=0.030 9
第二个月因副反应的累积停用率 =0.030 5+0.928 9×0.022 9=0.051 7
第二个月因其他原因的累积停用率=0.020 3+0.928 9×0.022 9=0.041 5
通过类似计算,可以获得表8-33-11中不同原因停用的累积停用率。
用多终止寿命表计算所得的概率也称为净停用率(net discontinuation probabilities),因为所得的是在其他停用原因同时存在时的停用率。
● 去因单终止寿命表法(Associated single-decrement life tables):去因单终止寿命表是一种较常用的分析避孕药具停用统计方法。它所获得的是因在无其他原因的情况下,某种特定原因所导致的避孕药具停用率。这种特定原因停用率又称为粗停用率(gross discontinuation rate)。这是一种假定其他原因都不存在,仅此停用原因存在的情况下的停用率,因此,该率不受其他停用原因的影响,特别适用于不同人群某种特定原因停用率的比较。
去因单终止寿命表法计算简单,在计算的时候将因其他原因停用的对象当做失访,其数据作截尾数据处理,仅留下所关注的停用原因用寿命表法进行统计分析。这里仍然采用上述例子,简要介绍去因单终止寿命表法的计算和应用。
表8-33-11 多终止寿命表法累积停用率和累积续用率计算方法
我们所关心的是避孕失败停用率,因此将表x-1中因不良反应和其他原因停用对象均当做失访,因此截尾对象数增加。各月的观察人月数发生了变化。计算公式为:Nx=Lx-Wx/2,例如:
第一个月观察人月数=100-8/2=96.0
第二个月观察人月数=90-9/2=95.5
……
可见,同表8-33-8、表8-33-9相比,表8-33-12的观察人月数下降了,这是因为除避孕失败以外的其他原因停用对象均当做失访处理,每个失访对象只贡献了半个月的观察时间。
表8-33-12 去因单寿命表中育龄妇女口服避孕药各停用原因、失访情况
月别避孕失败的粗停用率计算可用失败人数除以各期观察人月数获得,即1dx=Dx/Nx,月别续用率 =1-月别停用率,例如:
第1个月避孕失败粗停用率=2/96.0=0.020 8,续用率=1-0.020 8=0.979 2
第2个月避孕失败粗停用率=1/95.0=0.010 5,续用率=1-0.010 5=0.989 5
累积续用率的计算和单终止寿命表法一样,即将n个月别续用率连乘,即np0=∏pi=p0·p1…pn-1。例如,
第2个月累积续用率 =0.979 2*0.989 5=0.968 9
第3个月累积续用率 =0.979 2*0.989 5*0.968 3=0.938 2
以此类推可获得表x中所列结果。
● 净停用率和粗停用率的应用
对于初学者,往往不知道何时该用multiple-decrement计算避孕使用净停用率何时该用single-decrement方法计算其粗停用率。由于特定原因(如避孕失败)的净停用率与其他停用原因存在竞争作用,两者必然会相互影响。即其他原因净停用率高,可能导致避孕失败净停用率低,反之亦然。粗停用率则不然,其计算是假定只存在一种停用原因(如避孕失败),其他原因停用均当做截尾数据(如失访),这是一种理论上的率(因为实际使用对象多半会同时出现因避孕失败以外的原因而停用)。因此,粗停用率不受其他原因停用的影响。
在一些与政策相关的资料分析中,人们主要关注的是某个区域人口中避孕药具停用的模式,或比较不同亚人群避孕药具停用模式,这时适合使用净停用率进行比较。如果研究者主要关心的是特定原因(如避孕失败)所致的停用,则用粗停用率比较好,其最大的优点在于可以用于不同人群或同一人群不同时间因避孕失败或其他原因停用的比较。
(11)统计分析软件:统计软件非常多,目前临床研究常用并且比较权威的统计软件有SAS(statistics analysis system)、SPSS (statistical package for the social science)、STATA(statisties/data analysis)和Splus等。STATA灵巧方便,价格也能为个人用户所承受。SPSS的菜单式操作,使用简便,而且介绍SPSS的书籍比较多,目前已经成为国内非统计专业人员统计的首选软件。SAS是主要针对专业统计用户设计的软件,在数据处理和统计分析领域,被誉为国际上的标准软件系统。
(车 焱)
参考文献
[1]陈峰主编.现代医学统计方法与Stata应用.第二版.北京:中国统计出版社,2006
[2]国家食品药品监督管理局.药品注册管理办法. http://www.sda.gov.cn/WS01/CL0053/24529. html,2012.6.3
[3]国家食品药品监督管理局.药物临床试验质量管理规范.http://www.sda.gov.cn/WS01/CL0053/24473. html.2012.6.3
[4]姜庆五主编.流行病学.北京:科学出版社,2003
[5]Muir Gray,唐金陵.循证医学·循证医疗卫生决策.北京:北京大学医学出版社,2004
[6]杨珉,李晓松主编.医学和公共卫生研究常用多水平统计模型.北京:北京大学医学出版社,2007. 104~122
[7]曾光主编.现代流行病学方法与应用.北京:北京医科大学中国协和医科大学联合出版社,1994
[8]张文彤主编.SPSS统计分析高级教程.北京:高等教育出版社,2006
[9]赵耐青主编.卫生统计学.北京:高等教育出版社,2003
[10]Cristin-Maitre S,Serfaty D,Chabbert-Buffet N,et al.Comparison of a 24-day and a 21-day pill regimen for the novel combined oral contraceptive, nomegestrol acetate and 17β-estradiol(NOMAC/E2):a double-blind randomized study.Hum Reprod, 2011,26(6)1338~1347
[11]Dinger J,Assmann A,Möhner S,et al.Risk of venous thromboembolism and the use of dienogest-and drospirenone-containing oral contraceptives:results from a German case-control study.J Fam Plann Reprod Health Care,2010,36:123~129
[12]Dinger J,Heinemann L,Kühl-Habich D.The safety of a drospirenone-containing oral contraceptive:final results from the European Active Surveillance Study on oral contraceptives based on 142,475women-years of observation.Contraception,2007,75:344~354
[13]Duijkers I,Klipping C,Grob P,et al.Effects of monophasic combined oral contraceptive containing nomegestrol acetate(NOMAC)and 17β-oestradiol (E2)on ovarian function in comparison to a monophasic combined oral contraceptive containing drospirenone(DRSP)and ethinylestradiol(EE).Eur Soc Contracep Reprod Health,2010,15:314~325
[14]Evidence-Based Medicine Working Group.Evidence-based medicine.A new approach to teaching the practice of medicine.JAMA,1992,268(17):2420~2425
[15]Glasier AF,Cameron ST,Fine PM,et al.Ulipristal acetate versus levonorgestrel for emergency contraception:a randomised non-inferiority trial and meta-analysis,Lancet,2010,375:555~562
[16]GRADE Working Group.GRADE:an emerging consensus on rating quality of evidence and strength of recommendations.BMJ,2008,336:924
[17]GRADE Working Group.Grading quality of evidence and strength of recommendations.BMJ,2004, 328:1490
[18]http://library.downstate.edu/EBM2/2100.htm
[19]Jick SS,Hernandez RK.Risk of non-fatal venous thromboembolism in women using oral contraceptives containing drospirenone compared with women using oral contraceptives containing levonorgestrel:case-control study using United States claims data.BMJ, 2011,342:d2151
[20]LidegaardØ,Løkkegaard E,Svendsen AL,et al. Hormonal contraception and risk of venous thromboembolism:national follow-up study.BMJ,2009,339:b2890
[21]Parkin L,Sharples K,Hernandez RK,et al.Risk of venous thromboembolism in users of oral contraceptives containing drospirenone or levonorgestrel:nested case-control study based on UK General Practice Research Database.BMJ,2011,342:d2139
[22]Rasbash J,Steele F,Browne W,et al.A User's Guide to MLwi N.Bristol:University of Nottingham, 2004
[23]Seeger J,Loughlin J,Eng P,et al.Risk of thromboembolism in women taking ethinylestradiol/drospirenone and other oral contraceptives.Obstet Gynecol,2007,110:587~593
[24]The CONSORT group.CONSORT Statement. http://www.consort-statement.org/consort-statement/. 2012.9.27
[25]Van Hylckama Vlieg A, Helmerhorst FM, Vandenbroucke JP,et al.The venous thrombotic risk of oral contraceptives,effects of oestrogen dose and progestagen type:results of the MEGA case-control study.BMJ,2009,339:b2921
[26]Wilcox A,Dunson D,Weingerg C,et al.Likelihood of conception with a single act of intercourse:providing benchmark rates for assessment of post-coital contraceptives.Contraception,2001,63:211~215
[27]World Health Organization(WHO),Department of Reproductive Health.Medical eligibility criteria for contraceptive use.Fourth ed.2009.http://www. who.int/reproductivehealth/publications/family_planning/9789241563888/en/index.ht
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。