专栏名称: 郭老师统计小课堂
介绍统计学课程的知识,方法和思想
目录
相关文章推荐
上海本地宝  ·  上海又一波演唱会即将开票! ·  3 天前  
今日闵行  ·  再升级!新功能+2 ·  3 天前  
51好读  ›  专栏  ›  郭老师统计小课堂

关于条件logistic回归起源的研究

郭老师统计小课堂  · 公众号  ·  · 2024-08-21 08:27

正文

今天我们为大家介绍的是J. A. Hanley于本月发表在 Biometrika 上的文章《Studies in the history of probability and statistics. LI: the first conditional logistic regression》。

1.背景介绍

在流行病学研究中,条件logistic回归通常用于配对病例对照研究。它能够通过控制潜在的混杂因素,提供相对可靠的疾病风险估计,是重要的统计工具。统计学家和流行病学家用到条件logistic回归时,通常引用的文章是Breslow N. E.等人于1978年发表在 American Journal of Epidemiology 上的《Estimation of multiple relative risk functions in matched case-control studies》。

条件logistic回归在经济学研究中的首次应用是对“基于选择”或“基于结果”的抽样(McFadden, 1973),所以经济学家用到条件logistic回归时,通常引用的文章就是McFadden1973年发表在 Frontiers in Econometrics 上的《Conditional logit analysis of qualitative choice behavior》。

但是条件logistic回归可能有着更早的起源。早在1934年,Lionel Penrose和Ronald Fisher在研究“母亲年龄对唐氏综合征患病率的影响”时,可能使用了历史上第一个条件logistic回归模型。

2. Penrose和Fisher对唐氏综合症的研究方法


我们假设有若干家庭,这些家庭都只有两个孩子,且分别在母亲年龄为32和42岁时出生,另外每个家庭中有一个孩子患有唐氏综合征。用 分别表示在母亲年龄为32和42岁时出生的孩子患有唐氏综合症的概率,从而在母亲年龄为32和42岁时出生的孩子正常(N)的概率可以用 表示。因此对于这些恰有2个孩子家庭中,可以看成是每个家庭分别进行了两次独立的Bernoulli试验,概率分别为 ,那么可能出现的四种家庭构成分别为


两个孩子都正常或者都患病的情况不在研究范畴;另外两种情况的比率 可以写作

或者

记为 (Penrose和Fisher使用的符号为 ,并称其为relative odd),两种情况的比率还可以表示成 。所以在这样的家庭中,在母亲32岁时出生的孩子患有唐氏综合征的概率可表示为

需要指出的是,唐氏综合征的患病率 极低,所以和relative odd 在数值上十分接近,这很可能就是Penrose直接把relative odds作为唐氏综合征患病的relative probabilities的原因。

另外,一个很自然的推广是对于只有一个患有唐氏综合症孩子的家庭(孩子总数不限),如果一个孩子对应的relative odd为 ,那么他患病的概率为 ,其中 是这个家庭中所有孩子对应的relative odds之和。

3. 具体数值计算


为了简化运算,而且因为将母亲年龄作为协变量会使得回归模型有相当大的曲率, 所以Penrose选择了分段建模。具体来讲,他用7个参数来对年龄函数进行建模,每个参数对应一个5年宽的年龄段,Fisher称之为 序列。这7个参数就可以理解为上述的relative odds,只不过这里的 表示的不是在某一年出生孩子的患病率,而是某五年内出生孩子的患病率。

Fisher建议在获得试验值时将年龄分为五年或三年一组,并按照观察到的唐氏综合征儿童与期望值的实际比例,逐年增加或减少这些值,直至满足拟合条件。但是Penrose在整个过程中一直坚持使用了七个5年的分段(每个分段内的 是未知常数)。

当在每个年龄段内观测到的正常人数和患病人数与预期值相符时,可以认为所计算的 value是正确的。资料显示,Penrose在进行了7次迭代后,拟合频率与观察频率相差不到1%,此时得到的 values如表1所示。

表1 历次迭代得到的 values和患病儿童数量


该表中仍然沿用了当时的记号 ,而没有使用 。另外,由于 values是“相对几率”,所以可将最低风险年龄组(25-29岁)作为参考类别,缩放后的几率记为1,其他括号内的值都是已做了相应缩放后的结果。

将Penrose的上述计算结果绘制成散点图,并在其上叠加显示:(i)母亲年龄的分布(ii)一个相对概率从1开始的比例尺(iii)使用clogit函数拟合带有3个自由度样条的平滑x曲线(iv)对拟合的x值进行重新定位,结果如图1所示。

图1   母亲年龄组x值的最终估计

4. 为什么Penrose和Fisher的方法就是条件logistic回归?


我们以Pardoe和Simonton(2008)对奥斯卡奖获奖者的预测为例,对最简单版本的条件logistic回归作简要介绍。假设有一个数据集合,对于任何给定的年份,它的每一行对应一个当年的提名者,包含了若干预测变量 和一个指示变量y(用于表示该行提名者是否最终获胜)。这样一来,在某一年度,指定提名者获胜的概率就是


其中 是对应的回归系数向量,分母的求和覆盖了该组所有提名者。

在评选出获奖者后,该年度的似然贡献还是相同的表达式,只是将其中指定的某个提名者的预测变量 替换为最终获奖者(y = 1)的预测变量 。用MLE很容易最大化似然函数求得回归系数向量。

Penrose和Fisher所提出的某个孩子对应的 relative odd( 或者x)可以按照上述形式表示为


其中, 是母亲年龄类别 中的孩子对应的relative odd的对数;指示变量 表示该孩子是否属于类别 。假设患有唐氏综合症的孩子属于第3类别,并将他的兄弟姐妹中的 总和表示为







请到「今天看啥」查看全文