专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  清华软件论坛 | ... ·  5 天前  
数据派THU  ·  【博士论文】基于车载3D ... ·  5 天前  
软件定义世界(SDX)  ·  10%的企业正开始数字化转型 ·  1 周前  
软件定义世界(SDX)  ·  【PPT】2024中国企业出海蓝皮书 ·  1 周前  
51好读  ›  专栏  ›  数据派THU

【斯坦福博士论文】人类网络与高风险决策的计算方法

数据派THU  · 公众号  · 大数据  · 2024-12-02 17:00

正文

来源:专知
本文约2000字,建议阅读5分钟
本论文聚焦于人类网络与政策交汇处的四个核心挑战


在一个互联的世界中,制定有效政策日益依赖于对复杂人类网络的理解,例如用于疫情应对的接触网络、增强经济韧性的供应链网络,以及用于信息传播的社会网络。然而,要理解人类网络及其与政策的关系面临诸多挑战。首先,现实世界中在网络上展开的过程非常复杂(如疾病传播),而用于拟合这些过程模型的数据却十分稀缺。其次,在许多情况下,由于数据缺失或隐私限制,我们甚至无法获得完整的网络信息,导致只能观察到部分网络。第三,人类网络不仅会影响政策结果,政策也会改变这些网络的结构,因此需要对政策对网络的影响进行可靠估计。最后,即使拥有最先进的技术模型,制定有效政策仍常取决于人类因素:人们对政策的真实感受如何,我们又如何从数据中提取这些信息?
本论文聚焦于人类网络与政策交汇处的四个核心挑战。在第一部分,我研究了复杂过程在疫情背景下的表现,我们开发了一种流行病学模型,该模型整合了包含数十亿小时级边的流动网络,从而能够精细建模COVID-19的传播,而仅需三个模型参数。在第二部分,我探讨了部分观察网络的两种情景:动态网络(我们仅能观察其时变边缘分布和时间聚合的邻接矩阵)以及供应链网络(我们观察到企业之间的交易,但缺失企业内部生产函数的信息),并描述了我们为推断这些缺失部分所开发的方法。在第三部分,我研究了估计政策对网络影响的问题,并提出了两种方法:一种是基于数据的观察性因果推断框架,另一种是基于模型的理论分析。最后,在第四部分,我们深入分析了两种丰富的数据来源:搜索日志和政治演讲,这些数据揭示了人们对政策的态度,以及我们如何开发机器学习系统,从这些庞大且未标注的数据集中提取精确的、与政策相关的信号。

引言

人类网络构成了我们社会的基础。这些网络反映了我们之间多样的关系:谁与谁是朋友,谁与谁有身体接触,谁消费相同的新闻或购买相同的产品,等等。随着世界变得日益互联,人类网络在社会面临的重大挑战中发挥着越来越重要的作用。COVID-19疫情提供了一个典型的例子:COVID-19已在全球至少造成700万人死亡 [1],疫情还导致了巨大的经济和社会成本。在COVID-19等传染病的核心,是人类接触网络。首先,一组种子节点被感染,随后可能感染其接触者(即网络中的邻居),这些接触者如果被感染,可能继续感染他们的接触者,以此类推。因此,接触网络的结构调控了疾病的传播,极大地影响了疾病传播的范围、速度以及传播对象。这些特性为决策者提供了干预依据,例如在哪里实施封锁、如何安全地重新开放以及如何减少健康差距。
全球供应链是另一个例子:供应链本质上是一个网络,节点是个人或企业,边则代表它们之间的买卖关系 [2]。如果某个企业受到冲击(例如,由于自然灾害而无法继续生产其产品),该企业的买家将因失去供应而受到影响,其买家的买家也会受到影响,以此类推;反过来,该企业的卖家将失去需求,其卖家的卖家也会受到影响,以此类推 [3]。因此,冲击通过供应链传播,导致全球范围内的放大性破坏,给企业带来巨大损失。同样,供应链网络的结构调控了冲击的传播,因此理解这种结构可以为制定关键政策提供依据,例如如何提升供应链的韧性以及在破坏后如何更高效地恢复。
除了疫情和供应链,人类网络在许多社会挑战中扮演着核心角色:社交网络影响意见和极化 [4, 5],交通网络为城市规划提供信息 [6],用户-物品网络影响推荐系统 [7],流动网络帮助解释隔离和不平等现象 [8],等等。在所有这些领域,做出有效决策都依赖于对这些人类网络的理解。然而,由于数据的局限性和现实世界的复杂性,理解人类网络及其与政策的关系面临多种挑战。

复杂网络过程(第一部分)

首先,在网络上展开并为政策提供依据的过程(例如,疾病在接触网络上的传播或冲击在供应链中的传播)非常复杂。例如,疾病在接触网络上的传播高度依赖接触的类型,例如接触是否发生在室内或室外,接触的距离和持续时间,以及个体的易感性或传染性。此外,用于拟合这些过程模型的数据往往稀缺:例如,在流行病学背景下,我们通常只能获得整个地区的每日报告病例,而疾病的传播实际上发生在个体层面。因此,复杂动态与稀缺数据的结合需要创造性的方法,既能捕捉复杂性又不过度拟合现有数据。

部分观察网络(第二部分)

其次,在许多情况下,由于数据缺失或隐私限制,我们甚至无法获得完整的网络。例如,在疫情背景下,大多数国家并不确切知道谁与谁有过接触。在供应链的背景下,我们也无法观察到买卖关系的完整图谱,因为企业通常不愿意公开这些信息,我们也缺乏企业内部如何将投入转化为产出的关键信息。然而,我们往往能够获取部分网络信息,例如聚合的流动数据或某些企业的买卖关系。因此,如何利用这些数据,从部分观察网络中学习是一个关键问题。

政策对网络的影响(第三部分)

第三,人类网络并非静态的。政策不仅可能改变网络上过程的展开方式,还可能改变网络本身的结构。然而,研究政策对人类网络的影响非常困难,因为在高风险环境下,我们通常无法进行随机试验。相反,我们要么求助于基于模型的反事实分析,要么从观察数据中估计因果效应,这往往受到潜在混杂因素的影响(例如,更高的COVID-19感染率可能预测更严格的政策,但也可能自行改变行为)。此外,由于个体的结果可能受其邻居所接受治疗的影响,网络可能违反因果推断中没有单元间干扰的假设,因此需要特别关注可能的溢出效应。

人类因素(第四部分)

最后,有效政策制定的关键瓶颈往往不是技术或科学上的挑战,而是人类因素。政策并非在真空中制定:决策者会受到超出数据或模型的信息的影响,例如政治、选民的要求或无法通过数据捕捉的信息。一旦政策实施,个人的反应还取决于个人因素,例如他们的信念、信任对象以及如何权衡风险和收益。人类生成的数据(例如搜索引擎日志、社交媒体和演讲)提供了洞察这些个人因素的窗口。然而,这些数据源通常规模巨大,包含大量与政策问题无关的信息,并且未被标注,需要能够在最小标注下精准识别相关信号的方法。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU