专栏名称: 兔十四

这是一只企图学术但是无法严肃的兔子。

除了测年，品酒，碳十四还能估算人口？

兔十四 · 公众号 · · 2022-01-01 20:05

正文

请到「今天看啥」查看全文

你好，这是本兔的第 123 篇推送。

关于用碳十四数据估计人口的问题，这几年陆续跟人讨论过，一直有话想要说但是总被各种事情耽误。这下封城在家，可算是没有借口了……那就让我们从头说起吧。

☆ ★ 原理 ★ ☆

利用碳十四估计古代社会人口，其中的逻辑其实非常朴素：一个遗址如果有人类生活过，那必然会留下一些痕迹，植物或者动物的遗存，被后世的考古学家发现了拿去测年。在某一时期生活的人越多，那么这个时期的材料被发掘并测年的几率就越高，所以年代数据也就更多。

显然，这个方法并不能给我们一个遗址在某一时期人口的绝对数值，但是可以给我们一个遗址/一个地区/一片大陆的人口在某一段时期（5万年以内）的变化趋势。

与其它方法相比，碳十四是有一些优势的。传统的利用遗址数量、遗址规模、遗址堆积尺寸、遗物的多少来估计人口，可能会遇到各种各样的变数。比如，同等人数的狩猎采集者居无定所，那它们留下来的遗址数量可能就会多于农耕定居者；但是反过来狩猎采集者的遗址规模可能要小于定居人群；比较动植物遗存、陶器数量也会有一定的问题，因为随着时代变迁，人们对这些动植物资源的利用、对陶器的使用风格都会发生变化，并不能一致地反映人口。而碳十四在这方面的问题就比较小，只要人类生活过，就可以很方便地找到木炭骨头等碳十四测年材料，这对不同时期和不同的人群来说差别不大。此外还有一点，就是无论遗址数量、规模，还是遗物的数量，这些指标都没有与绝对年代直接相连，还需要额外的一步测年。

上述理由都冠冕堂皇地被写在各种文献里，其实还有一个特别显著的优势，就是使用这个方法你不需要亲自跑到每一个遗址去考察它们的规模，数它们都有几个房子，有多少动物植物或者陶器遗存，只需要收集所研究区域和时间范围内的碳十四数据。并且，数据处理的操作也非常简单。

☆ ★ 操作 ★ ☆

碳十四人口模型的基础操作非常简单，简单到……只有OxCal里面一行代码或者点一下鼠标的操作。

举个例子……就举个比较晚近的例子吧，同时也是一个国外的例子：一个蛮荒的沙漠，里面有个小破村子，里面住的都是文盲，因此没有文字记载，没有人口统计相关的文档流传下来。前两年有一只兔子去发掘了，带回来四个样品，分别是公元400年、公元500年、公元600年和公元800年的人类活动留下来的。在这个年代范围内，我们可以合理地假设加速器质谱碳十四的测量精度是 ±20年。这样测量得到的数据，进行树轮校正之后，会得到下图的结果。

其中sim 400/500/600/800表示对真实年代是公元400/500/600/800年的样品的测量结果（是的，作为一只非酋兔，400年那个刚好压在两个sigma的边界上）。后面的 sum 就是把前四个结果做一个简单的求和，在OxCal里面就是一个sum()的函数，只有一行。而这个sum的结果，就是我们要的人口。真的，已经做完了，惊不惊喜？

当然这么看比较费眼睛，我们可以只画最后那个sum，就会变成这样：

是不是看上去很像那么回事了。我们这就做出了这个虚构的小破沙漠里的小破遗址从公元200年到公元900年的人口变化趋势。我们只输入了四个数据，就得到了一个连续的、看上去有很多细节的、分辨率还挺高的时间序列。当然这是非常不准的，我们看到600年好像人口达到一个巅峰，到650年突然没人了，后来700年又有人回来了，当然这些都是假的，我们已知的信息应该只能推出：400年有过人住，500年有过人住，600年有过人住，800年有过人住。

据说大力出奇迹，现在让我们扩大样本容量，看看能不能得出更靠谱的结论。假设发掘者工作非常努力，对这个遗址进行了大量的测年工作，采集到了公元400年的样品20个，500年的样品100个，600年的样品50个，800年的样品5个。这时候我们对这个遗址的人口预期就应该是： 400年比较低，到500年翻两番达到巅峰，然后600年下滑到一半，800年之后几乎消失。现在让我们对这175个数据进行同样的求和操作，用那个 sum() 。得到下图所示的结果：

现在样本数量已经很多了，应该可以反映我们上面所预期的趋势才对，但是看上去500年和600年好像没有什么区别，原因后面讲。

这个假设的情形还是有点不那么现实，现在让我们再假设一种场景，还是这个小破遗址，从400年到800年一直稳定地有人居住，我们每隔10年采集并测量一个样品，于是乎从400年到800年总共有41个数据，均匀分布。这时候我们对人口的预期应该也是从400到800的均匀分布。那程序给的结果如何呢？

好像600年的地方还是有个峰，如果盲目解读的话，仍然会得出600年人口最多，650年有一个衰落，700年再回升这样的虚假结论。

好了，说到这里……实不相瞒，这个小破遗址是真实存在的，就是我博士论文做的以色列南部沙漠里的一个小破遗址，名叫 Shivta 。公元400到800年是他们的拜占庭时期和伊斯兰早期，我研究的就是这两个时期这个遗址的人群和文化变迁。根据已有的其它记录，整个地中海地区从536年开始有一个小冰期，而遗址所在的沙漠地区634-638年之间拜占庭人和阿拉伯人在打仗，那么我们往图上一凑：

是不是很完美地用这两个理由解释了人口下降的转折点？但是其实我们的假设中人口一直是均匀分布的。所以这里的人口上升或者下降的趋势都是假的 ……

☆ ★ 问题 ★ ☆

上面几个例子都不是存心耍各位，只是想说一个虚构的小遗址，几个虚构的场景，在短短400年内，都能有这么多问题，那么对于实际的考古工作，对一个真实的遗址、一片比较大的区域甚至全国范围，从旧石器晚期到新石器甚至商周时期，我们对它的人口估计敢有多大的把握？

碳十四估算人口的方法自上个世纪80年代被提出以来，已经快要40年了，所以已经有前人总结了大量的经验和教训，下面这篇文章总结得相当到位了，我就简单翻译一下。

采样偏差

碳十四测年样品本身，数据的质量，以及采集样品测年的考古学家，都会对这一偏差做出贡献，下面逐一进行说明。

测年样本的选取能不能代表一个遗址的人口，这个问题就像碳十四测年数据能不能正确反映遗址年代一样的尴尬。给老朋友们回顾一下我三年前发出的灵魂拷问：

回忆结束，那么现在请容许我现在把这个问题延伸一下：这块烧焦了的房梁上的木炭的碳十四年代，反映的是遗址什么时期的人口？

A. 宫殿被毁时的人口

B. 宫殿建造时的人口

C. 测年用的那1mg碳所在年轮生长那年的人口

D. 以上都不对

根据我这么多年做题的经验，看见D这种答案一般都是要选的。那为什么这次不选最长的了呢？因为木炭测年确实是测到了树生长的那年，但是树可能就是自己在森林里长大的，和旁边有没有住人一点关系都没有。

可见，不是所有碳十四数据都适合用来估计人口的，最好是能够反映人类活动的，比如人工种植的庄稼啊、人工养殖的动物啊、作为燃料的木炭最好是寿命比较短的那种植物，这样偏差会比较小。此外还有一些贝丘遗址，其中的螺壳贝壳如果测了碳十四年代，要仔细排查里面的碳库效应，拿不准的贝壳年代就不要用了。

数据的质量也是一个比较重要的因素。现在我们常用的加速器质谱测年可以达到比较高的精度，但是在上个世纪90年代之前的数据，主要都是利用常规β衰变测量的，测量误差比较大。当然并不是说这些数据测得不对……就是分布的概率区间比较大，但是正确答案还是能包含其中的。再回到刚开头举的例子，在我那个小破遗址，公元400年、500年、600年和800年各采集一个样品。现在我们假设400、500和800都是加速器测的，误差还是±20年，而600年是常规测的，误差有±100年。这个时候我们看一下校正后的数据：

600年那个分布的范围就很宽了。这对于反映人口的 sum 有什么影响呢？还记得之前说过 600年的人口总是被高估吧……

现在世道就变了……500年的人口被高估，600年反而显得没什么人，为什么呢？因为600年的测量误差过大，它的概率分布把500年也覆盖了。

所以这篇文章的作者（Williams，2012）也表示，需要计算一下所有数据的平均误差，如果总体的平均误差超过了 115年，那这组数据就先别做了吧。

采样者的个人偏好也会对人口估计产生一定的影响。这也很容易理解，我们去发掘的人都有自己感兴趣的时间段，在那之前的叫pre-interest，在那之后的叫post-interest，这也无可厚非。所以，在发掘者感兴趣的年代区间内数据偏多是不可避免的。去年机缘巧合，有幸听到美国怀俄明大学人类学系的Robert Kelly教授讲这个问题，他举了一个非常生动的例子，是一项针对美国的史前狩猎采集者的研究。

因为有一个研究者对1万3千年左右非常感兴趣，做了大量的工作，测了大量的碳十四年代，以至于我们在人口曲线的尾巴上看到一个非常不正常的峰。

还有一种情况，作者虚构了一个遗址，从距今4万年到现在，有3个主要的居住层位。然后他假设了四个考古学家（ABCD）在这里做工作，获取了四套碳十四数据。

A.N. Williams, 2012

上图的考古学家A是做了完整序列的测年工作，获得32个数据；B工作比较潦草，在A采集的样本中随机抽取10个测了一下；C是在A的样本中随机抽取了20个；考古学家D剑走偏锋，只测了三个层位的开始和结束年代。如果后来的研究者想用他们的数据来复原这个遗址4万年来的人口变化……根据A和C，可以得到比较接近的结论；如果相信B，复原出来的有人类居住的起始时间就晚了1万年；而利用D的数据，就会多总结出很多没有人住的空白阶段……因此作者建议一个遗址最好有 20个以上的数据。

总之，遇到上述几种情况，还是需要做人口重建的研究者对所有原始数据进行仔细地筛查，判断每一个数据的可靠性，评估每一组数据的完善程度，对每一个遗址的情况进行具体问题具体分析。

样本容量

虽然有些东西不是越多越好，但是太少了也不行的。比如我前面那4个，就显得非常闹着玩儿。那么具体需要多少个数据才能比较真实地反应过去的人口居住情况呢？这个问题，没有一个确定的答案 ……别着急，还是有一些规律可以遵循的。

一般来说，研究的年代跨度越大，需要的样本量就越多。研究400年的小破村子，和研究5万年（碳十四测年上限）的问题，需要的样本量肯定是不一样的。有研究者建议，对于 1万4千年以内的问题，需要至少200个数据，但是如果想得出比较可靠的结论，那么至少要780个。此外，样本容量大的话，对数据的测量误差的要求会放宽。如果只有200个样本，那么需要平均误差小于115年，但是如果样本量增加到500个，这时误差可以放宽到170年。

作者研究了澳大利亚4万年来的2996个数据，并对它们进行随机抽样，计算了抽出的子集与全集之间的差异。

A.N. Williams, 2012

这两个图就是展示，样本数量超过500 之后就比较稳定可靠了。

这是4万年的情形，如果研究的年代跨度比较短，比如400年的，那就具体问题具体分析吧。

校正效应

直接测量出来的碳十四年代需要经过树轮校正才能更好地反应样品的真实年代，这在近几十年已经成为惯例。为什么在前面虚构的案例中，简简单单几个相隔100年的数据也能生成一条连续的、细节丰富的人口曲线，这都是碳十四树轮校正曲线的贡献。为什么在上面的例子中，我们总会莫名其妙地高估600年的人口？那就需要看一下校正曲线在这个年代范围内的形状。

上图是一个公元500年的数据（深色）和一个公元600年的数据（浅色）经过树轮校正的结果。因为500年处在校正曲线的一个平台区，而600年的曲线比较陡峭，因此校正的结果，500年的分布范围就比600年的宽。但是，树轮校正结果的本质是概率分布，因此两个图形的面积是相等的，所以600年的峰就显得高一些。然而碳十四人口模型不管面积，只是单纯地将高度加和，这就是为什么在上面的几种假设情形中，600年的人口总能够被高估。

作者（Williams, 2012）也提出了这一问题的解决方案，类似统计学中的“ 平滑 ”处理，每500年（1万年以内的问题）或者800年（1万年-5万年的问题）求一个平均。这在万年尺度上不失为一个补救的措施，不过对于我们这种寿命不超过500年的小遗址，就从入门到放弃吧。当然，作者也提到，500年求一个平均，有可能会抹除一些真实存在的短期人口波动 ……这就需要具体问题具体分析了。

埋藏偏差

这个原理非常好理解，年代越久远，保存下来的遗存就越少。下图是一个很好的例子，上面那条黑色的线是格林兰冰盖中记录的火山喷发频率，可以说过去4万年中火山喷发的概率基本上是均匀的；但是下面的灰色曲线是经碳十四测年恢复出来的火山喷发频率，可以看到一个明显的衰减。

T.A. Surovell et al. (2009)

因此，对于年代跨度比较大的问题，如果我们只是简单地把所有碳十四数据都拿来用的话，可能会高估比较晚近的年代的人口。针对这个问题，有很多研究者总结过若干条经验曲线，可以把这个效应消除掉。但是Williams（2012）里也举了一些反例，证明埋藏学的偏差有时候没有那么大，还是需要具体问题具体分析。这个……如何理解呢？挖一个5万年的遗址，虽然保存下来的遗存少了，但是总要努力找些东西出来送去测年吧；反过来，挖一个500年的遗址（国外的，没有文字那种遗址），就算保存下来的东西多，也不会把所有的有机遗存都拿去测。所以即使从埋藏学上来说有一个衰减趋势，但是由于考古学家的主观意愿，反映到碳十四年代的数量上，可能并不显著。

☆ ★ 范文 ★ ☆

说了这么多问题，那到底还能不能玩了？

你问我，我自己肯定是不想玩的，hold不住这么多不确定因素。不过如果有人排除万难真的做出来了，我也是很赞赏的。

这是我王师兄2014年的一篇文章，是我见过的在我国做碳十四人口模型最早以及水平最高的一篇，可以说一出场就是巅峰了。

首先，作者们收集了我国境内的1063个遗址已发表的碳十四数据4656个。这并不容易，因为这些数据分散在各个遗址的发掘报告、大佬的论文、学生的毕业论文等各种地方，收集起来的难度非常大。

然后，要针对我前面讲过的诸多问题对数据进行筛选。

采样偏差：排除掉贝壳、沉积物、以及来源不明的样品数据，排除与人类活动无明显关系的数据，排除测量误差超过±400年的数据。

针对某些疯狂的研究者疯狂采样的行为，采取的方法是对每一个遗址的数据进行卡方检验，检验通过的说明这几个数据是同时的，求平均值当作一个年代处理；不通过的说明这是不同时期的人类留下来的，当作多个人类居住事件。

样本容量：经过上述的排除，剩余来自888个遗址的3878个年代。再对每一个遗址的多个数据求平均，得到代表不同人类居住事件的1644个数据，超过了Williams定的 500个数据的标准。这些数据的平均误差为75.43年，也符合误差低于115年的要求。

校正效应：为了消除校正曲线的非线性可能带给人口解读的假象，也是采取了Williams的建议，每 800年平滑了一下。这样处理过的人口曲线的峰和谷就可以比较可靠地代表了人口的增长和衰退。

埋藏偏差：使用了Surovell等人（2009）提出的经验公式来校正埋藏学带来的久远年代数据的缺失。

经过上述操作的处理后，作者得出的中国5万年内人口变化趋势如下图B所示，此外的另一条线A是格陵兰冰芯记录的气候变化，以氧18同位素的比值方式呈现。

C. Wang et al . (2014)

可以隐约看出一个趋势，就是气候温暖的时候人口也会增加，反之，气候转冷了人口减少。其中箭头标出了新石器早期一个人口激增的时间，大约在距今9000年。这也是农业起源的时期……以下省略关于农业革命的讨论。

除此之外，作者还利用我国本土的气候记录，更加精细地匹配了人口变化的曲线。并把所有数据按照地理分成华南、华北、西北和青藏四个区域分别进行了讨论。后面的讨论已经超出了本兔的能力范围，感兴趣的小伙伴可以自行查看全文，点击文末阅读原文可以获取链接。

最后的最后，关于用碳十四估算人口的方法，我采访了这篇文章的作者：

如果你对这个方法感兴趣又不知从何下手，希望这篇推送能帮到你。

如果你一直对此持观望态度，希望你已经有了自己的判断。

参考文献

[1] Surovell, T. A., Finley, J. B., Smith, G. M., Brantingham, P. J., & Kelly, R. (2009). Correcting temporal frequency distributions for taphonomic bias. J ournal of archaeological Science, 36(8) , 1715-1724.

[2] Williams, A. N. (2012). The use of summed radiocarbon probability distributions in archaeology: a review of methods. Journal of Archaeological Science , 39(3), 578-589.

[3] Kelly, R. L., Surovell, T. A., Shuman, B. N., & Smith, G. M. (2013). A continuous climatic impact on Holocene human population in the Rocky Mountains. Proceedings of the National Academy of Sciences , 110(2), 443-447.

[4] Wang, C., Lu, H., Zhang, J., Gu, Z., & He, K. (2014). Prehistoric demographic fluctuations in China inferred from radiocarbon data and their linkage with climate change over the past 50,000 years. Quaternary Science Reviews , 98, 45-59.

写在最后

2022年的第一篇推送，其实从2021年就开始写了。

本文感谢我的同类毛毛兔帮忙抓虫。

兔十四已经写了五年了，感谢大家一路的陪伴 ❤

祝我们都新年快乐，新的一年有新的成长，新的际遇。

祝疫情早日结束。

2022年1月1日

于西安