通常统计软件并不会直接给出L1或者L0的值,而是会给出另外一个变量——“偏常“(deviance,通常用D表示)——的数值 。这又是什么呢?要解释“偏常”的含义,我们得先介绍另外一个概念,这就是“饱和模型”(saturated model)。
大家已经知道,逻辑回归模型的本质,就是研究因变量y取值为1(或0)的概率与自变量之间的关系。模型拟合完以后,给定自变量的取值,模型就会给出此时因变量y取值为1 的概率。正如上一集的例子中,我们可以说,根据拟合得到的模型,当教育程度为14年时,支持聪聪的概率是0.857,诸如此类。
如果一个模型能比较好地反映数据集体现的规律的话,这个预测应该是大体正确的。比如说,教育程度为14年左右的蓝精灵选民,应该是选聪聪的多,选乐乐的少。但既然说是“大体正确”,具体到每个个体,我们的预测总不可能完全正确。对于教育程度大约为14年但是选了乐乐的选民,模型的预测就可以说是错了。这听起来似乎让人不太满意,但对于0/1取值这样的二分类变量,能有大体正确的预测就已经非常不错了。
虽然现实有些骨感,但它并不能妨碍我们对丰满理想的追求是不?这个丰满的理想是啥呢?很简单,就是一个这样的模型,它对于每个点的预测都是完全正确的。也就是说,对于y值取0的点,它给出的预测就是y取1的概率为0;对于y值取1的点,它的预测就是y取1的概率是1。而一个模型如果能做到这份上,那我们就把它称为模型中的战斗机饱和模型了!
饱和模型只跟具体的数据集有关,跟我们当前在考虑什么样的模型、模型中包含什么自变量没有关系。对于同样的一组数据,饱和模型对应的似然Lfull是个固定值。正因如此,饱和模型是一个很好的基准点,它是给定数据集上,模型拟合优度能达到的上限。
说完了饱和模型,我们再来回到“偏常”(嗯,我知道你已经把这事儿给忘了)。偏常其实就是“饱和模型“相对于当前模型的拟合优度。