绝对收入流动指数衡量的是在某个时期中如1940-1942年所有的出生人口在30年后其收入超过父母收入的人口比重,所以绝对收入流动指数可以直观地构造为公式(1):
(1)
表示在出生组C中的第i个小孩的收入,表示在出生组c中的小孩i父母的收入。公式表明如果出生组C中小孩的收入大于他们的父母,则记为1。Nc为出生组C中小孩的总数,可以看出AC即为在收入上实现了跃升的小孩的比例。因此,AC即表示出生组c中的绝对收入流动指数,如当C=1940时,AC表示出生在1940年的小孩在30岁时相比他们的父母所实现的绝对收入流动:AC越高,则绝对收入流动越多,社会机会越均等。
如何计算个数呢?本文分别利用父母和小孩收入边缘概率分布以及通过copula函数(也称连接函数)构建的联合概率分布来计算AC,具体可写为:
(2)
其中,表示小孩i的收入在出生组c中所有小孩组成的收入分布中的百分位排名,相应地表示小孩i的家长在出生组c中所有孩子家长组成的收入分布中的百分位排名。进一步,用
来分别表示处于出生组C中小孩和家长在各自的收入百分位排名下的用美元表示的收入。可知,如果则实现了绝对收入的代际流动,可记为1,而这种情况发生的概率为。至此,我们只要知道在每个出生组中选取为样本的父母和孩子的边缘收入分布,利用copula函数构建在同一出生组的父母和孩子收入的联合概率分布,就可以计算Ac了。
计算方法解决后,Ac的计算还需要同一出生组中父母和孩子各自收入的边缘分布。现实情况是,1970年的人口普查数据(CPS)可以得到在20世纪80年代出生的小孩的父母在30岁时的收入数据,以及30年后这些小孩收入的追踪数据,但是1970年之后没有相应的追踪数据。因此,不知道1940-1942出生的小孩他们的父母在30岁时的收入分布数据(因为没有追踪数据,所以不知道1970-1972年时30岁的人,他们的父母是谁,他们的父母在30年前生他们的时候是多少岁,这就造成了估计得出20世纪40年代出生组中父母与孩子收入联合分布的困难)。本文为得到这个收入分布,提出了一个前提假设即:1940之后,任意出生组的copula函数是基本稳定的(本文通过copula函数定义父母收入和孩子收入的联合分布),基于此估计。
为了估计那些在1970-1972年时孩子已经30岁的父母的收入边缘分布,本文利用1940-1942的混合数据(pool data)来计算这些父母在30岁时的收入分布。比如如果选择的出生组是1970年,而不知道这个出生组中孩子父母的收入边缘分布,于是这样选择:首先,利用1970年人口普查数据得到那些在1970年年龄为25-35岁的在当时拥有小于一岁的孩子的人为父母;然后到1980年的人口普查数据中选取在当时年龄为26-35的拥有年龄为10岁的孩子的人为父母(即在1970年的时候这些人年龄为16-25岁并且拥有年龄小于1岁的孩子);最后,转到1960年的人口普查数据,找到年龄为25-35岁的人(到1970年的时候他们就为35-45岁的人),并用1970年人口普查中年龄为35-45并且拥有年龄小于1岁的孩子的人在总人口中的比重来乘以1960的数据。这样就可以同时找到那些在2000-2002年拥有30岁孩子的父母的在25-35岁时的收入。为什么要选择年龄为25-35岁的人呢,因为如果只在1970年选择年龄为30岁的人作为孩子的父母的样本数据,那么不一定能包括在那一年生孩子所有的父母,而25-35是关于30岁呈对称分布的年龄区间。至此,我们就在缺少面板数据的情况下得到了估计,估计20世纪40年代出生组中父母收入边缘分布的方法,以及在copula函数一致性假设下相应1940-1970孩子和父母收入的联合分布。