1、预防医学,偏倚控制及病因推断,预 防 医 学,第五章,烟草公司的研究者坚持认为火柴暴露可以引起肺癌 他们开展了一项大型的病例对照研究来检验这个假说,案例,研究者通过人群登记系统找到了1000名肺癌病例,其中820人曾携带过火柴 从人群中随机抽取了1000名对照,经X线确认未患肺癌,其中340人曾携带过火柴 根据这批数据,定量估计火柴与肺癌之间的关联,案例,1000 1000,案例,上述案例提示,结果:携带火柴者发生肺癌的危险性是不携带火柴者的8.8倍 提示:携带火柴与肺癌有关联,携带火柴是肺癌的危险因素 显然这是一个虚假的关联,学习目的,描述流行病学研究中常见的选择偏倚、信息偏倚和混杂偏倚;
2、列举选择偏倚和信息偏倚的种类; 定义本章所涉及的概念; 列举选择偏倚、信息偏倚和混杂偏倚的控制方法; 描述因果关联的推断标准 认识统计学关联和因果关联的关系 。,第一节 流行病学研究的偏倚,个体 个体变异(individual variation) 测量变异(measurement variation) 群体 个体间遗传变异(genetic variability between individuals) 环境变异(environmental variability) 测量变异 抽样 抽样方法(manner of sampling) 样本含量(size of sampling) 测量方法,研究
3、的变异性 (variation),是指研究收集的数据、分析结果和所得结论与客观实际的符合程度。包括: 内部真实性(internal validity) 外部真实性(external validity),研究的真实性(validity ),内部真实性 就是指从当前研究对象得到的结果与目标人群(源人群)真实情况的符合程度。 外部真实性 从当前研究对象得到的结果被外推至目标人群以外的其他人的程度 内部真实性是外部真实性的先决条件 我们常说的真实性常指的是内部真实性,任何研究的目的都是要发现真相 影响真实性的因素(得到错误的结论) 随机误差(random error) 系统误差(systematic
4、error),影响真实性的因素,偏倚:任何导致错误估计的系统误差 设计、实施、分析至推断过程中均可发生偏倚,研究的偏倚 (bias),偏倚的种类,选择偏倚(Selection bias)信息/测量偏倚(information bias)混杂偏倚(confounding bias),选择偏倚 (Selection bias),定义 不同类型 (就研究的暴露、结局特征而言) 的个体入选研究的概率不同使研究对象与目标人群的特征存在系统误差,而使效应估计值与真值之间发生偏差既可产生于研究初期对象的入选(病例对照研究和横断面研究),也可产生于收集资料过程中出现失访或无应答(队列研究),常见的选择偏倚,入
5、院率偏倚 (admission rate) / 伯克森偏倚(Berkson) 检出症候偏倚 (detection signal bias) / 暴露偏倚 (unmasking bias) 现患病例新发病例偏倚 (prevalence-incidence bias) /奈曼偏倚(Neyman) 无应答偏倚(non-respondent bias) 失访偏倚(withdraw bias) 易感性偏倚(susceptibility bias),产生于医院为基础的病例对照研究病例组和对照组(其他疾病患者)入院率不同入选的与不入选的暴露率不同,病例组和对照组病人治疗疗效不同距离医院的远近不同病情的轻重程
6、度不同,入院率偏倚(admission rate bias)/ 伯克森偏倚(Berksons bias ),假设,某社区中患A病和B病者各为1000人,患A 病和B病的人群中各有20%的人具有某因素X,以此社区为基础以B病为对照进行因素X与A病关系的病例对照研究可获得如下数据:,病例组和对照组的X暴露率均为20 OR(200800)/(800200)=1.0 A病与X因素无统计学关联。,入院率偏倚(admission rate bias)/ 伯克森偏倚(Berksons bias ),再假设,上述病例组和对照组按照A病入院率20、B病入院率50、暴露于X者入院率40的比例到某医院就医。,入院率
7、偏倚(admission rate bias)/ 伯克森偏倚(Berksons bias ),入院率偏倚(admission rate bias)/ 伯克森偏倚(Berksons bias ),目标/源人群,研究样本,=0.2+0.80.4=0.52 =0.5+0.50.4=0.70 =0.5 =0.2,OR=1 A病与暴露无统计学关联,OR1.86 A病与暴露有统计学关联 入院率偏倚歪曲了因素与疾病之间的联系,检出症候偏倚 (detection signal bias) /暴露偏倚 (unmasking bias),指某因素与某疾病虽无关联,但因暴露于该因素可引发该病的某些症状或体征,具有该
8、症状或体征的患者急于求医,结果接受检查的机会增加,使其中患该病的病人提早确诊,检出率被人为地提高如果入选病例中早期病例较多的话,则暴露比例必然被虚假的增高,检出症候偏倚 (detection signal bias) 暴露偏倚 (unmasking bias),举例:1975年Ziel等的病例对照研究发现服用雌激素与子宫内膜癌有关,是子宫内膜癌的危险因素 学者指出:该结论是虚假的,是由于存在检出症候偏倚导致的。 理由:绝经期妇女服用雌激素会造成子宫不规则出血而到医院就诊,使子宫内膜癌早期病例被发现的机会大大增加。 而未服用者没有出血症状不去就医而不能及时发现早期病例。 病例组中早期病例过多,相
9、对于在暴露因素中选择病例,势必导致疾病与因素的虚假联系。,现患病例新发病例偏倚 (prevalence-incidence bias) /奈曼偏倚(Neyman bias ),入选的为现患或存活病例( 新、旧病例) 不包括死亡病例和病程短的病例,改变了对原来某些因素的暴露情况,如:研究高胆固醇与心梗的关系 高胆固醇是研究疾病的预后因素 高胆固醇的心梗患者较低胆固醇的心梗患者更易发生突发性死亡 入选的为现患或存活病例( 新、旧病例),不包括死亡病例和病程短的病例 结果将低估高胆固醇与心梗的关系,现患病例新发病例偏倚 (prevalence-incidence bias) /奈曼偏倚(Neyman
10、 bias ),无应答偏倚 (non-response bias),调查对象不合作或因种种原因不能或不愿意参加调查从而降低了应答率。无应答者的某些特征与应答者存在系统误差,并由此歪曲研究结果。,失访偏倚(loss to follow-up bias),失访:指研究对象因各种原因从原定的研究队列中退出。 失访偏倚:失访者在某些与研究有关的特征上与未失访者存在的系统误差 发生于随访性质的研究中:如队列研究、实验研究、预后观察等,易感性偏倚(susceptibility bias),易感性偏倚:在观察性研究中,由于样本人群与总体人群之间或对比组人群之间对所研究疾病的易感性不同而引起的偏倚。,健康工人
11、效应(health worker effect): 由于工作性质,暴露者的健康水平高于非暴露者(也就是暴露者对疾病的易感性低于非暴露者),选择偏倚的控制,主要方法 随机抽样 设立对照 严格诊断标准 提高应答率 采用多种对照,偏倚的种类,选择偏倚(Selection bias)信息/测量偏倚(information bias)混杂偏倚(confounding bias),信息偏倚 (information bias),又称测量偏倚、观察偏倚。是在收集整理信息过程中由于测量暴露与结局的方法(工具)有缺陷,使收集到的信息不准确(即不完全真实)造成的系统误差。,导致错分,因此又称为错误分类偏倚(mis
12、classification bias),错分的种类,无差异性错分(nondifferential misclassification),或均衡性错分 暴露或疾病的错误分类与研究分组无关,即在各比较组间不存在差异。差异性错分(differential nisclassification)或非均衡性错分 暴露或疾病的错误分类与研究分组有关,即在各比较组间存在差异。,暴露的无差异性错分,研究真实数据 OR2.3,错分数据 OR2.0,病例和对照中均有20的高脂肪饮食者报告是低脂肪饮食,暴露的差异性错分,研究真实数据 OR2.3,错分数据 OR3.19,对照较病例漏调了更多的暴露,错分的原因,问卷的
13、问题 不准确的回忆 不明确的问题 过分热情或冷淡的调查员 生物标本的问题 标本采集、处理或保存过程中的问题 检测方法固有的限制 仪器故障,数据管理的问题 编码 设计或分析的问题 测量时间不合适 不适当的汇总变量,信息偏倚的种类,调查对象引起的偏倚: 回忆偏倚(recall bias) 报告偏倚(reporting bias) 调查偏倚: 调查员对具有不同特征的调查对象采用不同的调查方式或态度 诊断怀疑偏倚(diagnostic suspicion bias) 暴露怀疑偏倚(exposure suspicion bias) 测量偏倚(measurement bias) 发表偏倚(publicat
14、ion bias),回忆偏倚 (recall bias),定义: 研究对象在回忆以往发生的事件时,比较组间在回忆的准确性和完整性上存在的系统误差。 产生回忆偏倚的因素: 调查时间和事件发生的时间间隔 事件的重要性 被调查者的构成 问卷技术,报告偏倚 (reporting bias),定义: 由于种种原因研究对象回答问题不准确,有意夸大或缩小某些信息而导致的偏倚。产生报告偏倚的因素: 暴露因素涉及到生活方式或隐私 如饮酒、收入水平、婚姻生育史和性行为 ,研究对象会因种种原因而隐瞒或编造有关信息 研究对象遇到某些敏感问题或称社会不认同行为,诊断怀疑偏倚 (diagnostic suspicion
15、bias),定义: 研究者有暴露于某因素者易发生某疾病的现入之见,所以在诊断疾病时对暴露组采取了比非暴露组更认真的方法和态度,致使暴露者更易做出某疾病诊断的情况。 易发生于队列研究 结果 暴露组比非暴露组诊断疾病的灵敏度提高,非暴露组较暴露组会漏掉更多的病例,使疾病错分。,暴露怀疑偏倚 (exposure suspicion bias),定义: 研究者有某疾病与暴露某因素有关联的先入之见,因而在收集病例组和对照组的暴露信息时采取了不同的方法和态度,致使病例组比对照组更易获得暴露信息的情况。 易发生于病例对照研究 病例比对照会报告更多的不实的暴露,而对照较病例会漏掉更多的暴露,测量偏倚(meas
16、urement bias) 测量工具、检测方法不准确,检测技术操作不规范,工作粗心造成研究结果系统地偏离真值的现象。 发表偏倚(publication bias) 指阳性结果的研究比阴性结果的研究更易得到发表,使人们从公开发表的材料上获得的信息与真实情况产生偏差。 一般来讲,阴性结果的研究者一般不愿投稿,或投稿后不容易获得发表,因而造成对某种结论的歪曲。,信息偏倚的控制,采用客观指标、明确定义 尽可能的采用盲法 质量控制 培训调查员 宣教工作 预调查 核查,偏倚的种类,选择偏倚(Selection bias)信息/测量偏倚(information bias)混杂偏倚(confounding b
17、ias),混杂偏倚 (confounding bias),混杂因素(confounding factor, confounder) 与研究的因素和研究的疾病均有关,若在比较的人群组中分布不均可以掩盖或夸大因素和疾病之间真正联系的因素。,混杂偏倚 由于混杂因素的存在,掩盖或夸大了研究因素与疾病(事件)之间的真实联系,这个现象叫混杂偏倚。,混杂因素必备条件,混杂因素 (C) 必须: 与所研究的疾病 (D) 相关 与所研究的暴露因素 (E) 相关,且 不是研究因素与研究疾病因果链的中间环节,1000 1000,案例,提示:携带火柴与肺癌有关联,携带火柴是肺癌的危险因素,分别了解一下吸烟者与不吸烟者中
18、火柴与肺癌的关系 结果发现在1000名病例中,900名为吸烟者,其中810名曾携带火柴 在1000名对照中,300名为吸烟者,其中270名曾携带火柴 分层绘制22表,计算火柴与肺癌的关联效应值,OR粗 = 8.8 (7.2, 10.9) OR吸烟者 = 1.0 (0.6, 1.5) OR不吸烟者 = 1.0 (0.5, 2.0),在火柴与肺癌的关系中,吸烟就是一个混杂因素(confounding factor, confounder) 吸烟混淆了火柴与肺癌之间的真实关系 这个例子说明:即使本来没有任何效应,混杂也可以引起明显的效应,混杂:吸烟、火柴与肺癌,混杂因素的判断,通过比较存在和排除某可
19、疑混杂因素时研究因素与疾病的效应估计值(OR或RR)进行判断 粗OR(OR粗)代表存在C时,因素与疾病关联的比值比;调整OR(OR调整)代表排除C的作用后,因素与疾病关联的比值比。 判断条件 OR粗OR调整,C无混杂作用 OR粗OR调整,C有可能存在混杂作用 OR粗OR调整C有可能存在正混杂作用 OR粗OR调整C有可能存在负混杂作用,混杂偏倚的控制,研究设计阶段 随机化(randomization) 限制(restriction) 匹配 (matching),混杂偏倚的控制,资料分析阶段 分层分析 多元分析模型,第二节 病因及其推断,病因的概念,病因是一个复杂的概念,正确理解病因的概念对疾病的
20、预防、诊断和治疗都是极其重要的,但医学各学科有不同的表述。 流行病学层面的病因概念是从多因素病因以及影响这些因素的预防策略来考虑,是流行病学实践中的一个基本概念。,流行病学层次的病因,一般称为危险因素(risk factor),含义是使疾病发生概率即风险(risk)升高的因素。,必须确定: 危险因素发生于疾病之前 “升高的概率”未受其他因素的干扰,病因的种类,来自疾病的宿主体内,如遗传、年龄、性别、民族、免疫状况、心理、行为习惯等; 来自宿主赖以生存的自然环境:如生物因素、物理因素、化学因素、气候因素、地理因素)等; 来自宿主所处的社会环境:如社会制度、经济地位、婚姻、风俗、宗教信仰等。,因素
21、与疾病的作用方式,单因单果 单因多果 多因单果 多因多果,充分病因和必要病因 危险因素 直接病因和间接病因,病因的类型,充分病因和必要病因,充分病因(sufficient cause) 指有某因素存在,必定(概率为100)导致某疾病的发生 是一个完整的病因机制 因此,充分病因也可理解为:是与疾病发生有关的诸因素,必要病因(necessary cause) 指有相应疾病发生以前,必定(概率为100)有该病因存在 病因对特定疾病而言是必不可少的(各种人类传染病病原体),充分病因和必要病因,充分病因和必要病因的关联 人类各种疾病的病因中 有些属于必要病因(人类传染病病原体) 有些属于充分病因(理化因
22、素所致的电击、烧伤) 多数既不符合必要病因的条件又不符合充分病因的条件(吸烟、饮酒、肥胖等),充分病因和必要病因,指某种暴露、行为或特性,它的含义就是使疾病发生概率即风险(risk)升高的因素,也意味着病因(暴露条件)与疾病相关。 确定该危险因素发生于疾病之前,以及“升高的概率”未受到其他因素的干扰。 危险因素既不符合必要病因的条件,又不符合充分病因的条件(如吸烟、饮酒、肥胖等) 流行病学的病因研究是测量某因素使疾病发生率升高的程度,危险因素,直接病因和间接病因,病因X1,病因X2,疾病Y,X2为直接病因(direct cause),它与疾病Y之间没有中间病因 X1为间接病因,它与疾病Y之间有
23、一个X2(或多个)中间病因,结核病病因示意图,直接病因和间接病因,将因素分为两个层次:外围的远因和致病机制的近因,流行病学的危险因素主要指外围的远因 特点:数目多,疾病发生概率低,直接病因和间接病因,统计学关联和因果关联,统计学关联是判断因果关系的基础 可能病因(暴露)E与疾病D存在统计学关联 只说明E与D的关联排除了偶然性(随机误差)的干扰,并不一定存在因果关联。 要确定因果关联 还要排除选择偏倚、信息偏倚和混杂偏倚 确定暴露E与疾病D的时间先后关系 仍有统计学关联 用因果判断标准进行综合评价,确定因果关联的判断进程,统计学关联和因果关联,关联的分类总结,因果关联的推断标准,关联的时间顺序
24、关联的强度 3. 关联的可重复性 4. 关联的合理性 5. 研究的因果论证强度,关联的时间顺序,如果怀疑病因(或防治处理)X引起疾病(或防治效应)Y,则X必须发生于Y之前,即前因后果的时间顺序。 确定前因后果的时间顺序上 实验和队列研究最好 病例对照(用新病例)和生态学时间序列研究次之 横断面研究较差,关联的强度,一般而言,关联的强度越大,同弱关联相比,该关联为因果关联的可能性就越大。 关联强度的测定 分类资料关联强度:OR(病例对照研究)、RR(队列研究) 连续性变量的关联强度:等级OR或RR、等级相关系数和积差相关系数,关联的可重复性,也称一致性或恒定性,指关联可以在不同的人群、不同的地区
25、和不同的时间重复观察到。因素与疾病间关联的一致性越好,因果关联的可能性越大 实验性研究的可重复性好于观察性研究,关联的合理性,包括两方面的含义: 在科学上言之有理,即与现有理论知识不矛盾,符合疾病的自然史和生物学,相当于客观评价。 研究者或评价者从自身的知识背景出发,支持因果假设的把握度,相当于主观评价,即科学家团体的意见。 有些当前不能被已知科学理论解释的因果关联并非就不是因果关联,有可能在未来被新的科学知识所证实。,研究的因果论证强度,研究设计与论证强度密切相关 研究设计与因果论证强度 实验研究观察研究 有对照研究无对照研究 以个体为分析单位的研究以群组为分析单位(生态学)的研究,小结,选
26、择偏倚的定义及控制方法 信息偏倚的定义及控制方法 混杂偏倚的定义及控制方法 病因的概念 因果关联的推断标准,复习思考题,查阅人群研究的文献,分析文献中控制了哪些偏倚,如何控制的,还有哪些偏倚没有被控制? 因果推断是什么?,推荐阅读书目及网站,1.Rothman KJ. Modern Epidemiology. Third edition. Lippincott Williams & Wilkins.2008 2.Greenberg RS. Medical Epidemiology. Second edition. a LANGE medical book. 1996. 3.Beaglehole R. Basic epidemiology. Geneva, World Health Organization 2005. 4.http:/rds.epi-ucsf.org,谢谢,