专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
相关文章推荐
江苏新闻  ·  江苏一地宣布干部调整决定! ·  2 天前  
江苏新闻  ·  江苏一地宣布干部调整决定! ·  2 天前  
深圳新闻网  ·  深圳AI训练师培训通知!符合条件最高补贴24 ... ·  2 天前  
江苏教育新闻  ·  江苏拟立项建设一批省级学院! ·  2 天前  
江苏教育新闻  ·  江苏拟立项建设一批省级学院! ·  2 天前  
51好读  ›  专栏  ›  AI TIME 论道

ACL 2024大奖揭晓!全华人团队用AI破解3000年前甲骨文密码

AI TIME 论道  · 公众号  ·  · 2024-08-15 18:00

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

转载来源:新智元

原文链接:https://mp.weixin.qq.com/s/CJEDRuEb19buOOk4FsvQNQ

转载请联系出处

ACL 2024终于颁奖了!

共有7篇最佳论文,35篇杰出论文,还有时间检验奖、SAC奖、最佳主题论文、最佳资源论文奖等一并公布。

值得一提的是,7篇最佳论文中,Deciphering Oracle Bone Language with Diffusion Models由全华人团队完成。





今年是国际计算语言学年会(ACL)第26届会议,于8月11-16日在泰国曼谷开幕。



ACL 2024的论文总提交量与2023年相差无几,大致为5000篇,其中940篇论文被接收。


本届ACL堪称有史以来,最大的一次,共有72名SAC、716名AC、4208位审稿人。

975篇findings论文,6篇JCL、31篇TACL,还有3个主题演讲,1个panel。
整场会议还包含了18个workshop、6个tutorial、38个demo,60篇SRW论文。


论文作者具体提交论文情况如下:
大多数人提交了1篇/2篇论文:有10333名学者提交了1篇,2130人提交了2篇
少部分人提交了多篇论文:有3位作者提交了18篇,6人提交了19篇,18人提交了超20篇。


一起看看,今年都有哪些团队荣获大奖?

7篇最佳论文


论文1:Deciphering Oracle Bone Language with Diffusion Models
作者: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu
机构:华中科技大学、阿德莱德大学、安阳师范学院、华南理工大学

论文地址:https://arxiv.org/pdf/2406.00684

如题所示,华人团队用AI做了一件非常有趣且有价值的事——借助扩散模型破译甲骨文(OBS)。
甲骨文起源于大约3000年前的中国商朝,是语言史上的一块基石。
尽管人们已经发现了数以千计的碑文,但甲骨文的大量内容仍未被破译,为这一古老的语言蒙上了一层神秘的面纱。

论文中,作者介绍了一种采用图像生成AI的新方法,特别是研发出「Oracle Bone Script Decipher」(OBSD)。


利用基于条件扩散的策略,OBSD生成了重要的破译线索,为AI辅助分析古代语言开辟了一条新路。
为了验证其有效性,研究人员在甲骨文数据集上进行了大量实验,量化结果证明了OBSD的有效性。

论文2:Natural Language Satisfiability: Exploring the Problem Distribution and Evaluating Transformer-based Language Models
(暂未提交预印本)

论文3:Causal Estimation of Memorisation Profiles
作者:Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
机构:剑桥大学、苏黎世联邦理工学院

论文地址:https://arxiv.org/pdf/2406.04327

理解LLM的记忆,对实践和社会有着重要的影响,比如研究模型训练动态或防止版权侵权。
先前的研究,将记忆定义为通过实例训练,对模型预测该实例的能力,产生的因果响应。
这个定义依赖于一个反事实:能够观察到模型没有看到该实例时会发生什么。
然而,现有的方法通常针对模型架构,而非特定模型实例估算记忆,很难提供计算效率高,且准确的反事实估计。
这项研究填补了一个重要空白,作者基于计量经济学中的差分设计,提出了一种原则性且高效的新方法来估计记忆化。
利用这种方法,只需在整个训练过程中,观察一小部分实例的行为,就能描述出模型的记忆概况,即模型在整个训练过程中的记忆趋势。

在Pythia模型套件的实验中,研究人员发现:

(1)大型模型的记忆性更强、更持久;

(2)由数据顺序和学习率决定;

(3)在不同规模的模型中具有稳定的趋势,因此大型模型的记忆与小型模型的记忆具有可预测性。


论文4:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

作者:Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
机构:Cohere For AI、布朗大学、Cohere、Cohere For AI Community、卡内基梅隆大学、麻省理工学院

论文地址:https://arxiv.org/pdf/2402.07827

今年2月,初创公司Cohere发布了一款名为 Aya 全新开源的大规模语言生成式大模型,覆盖了超101种语言。
值得一提的是,Aya模型语言模型覆盖范围,是现有开源模型两倍多,超越了mT0和 BLOOMZ
人类评估得分达到75%,在各项模拟胜率测试中得分为80-90%。
这一项目得以启动,汇集了来自119个国家的超3000名独立研究人员的力量。
此外,研究人员还公开了迄今为止最大的多语言指导微调数据集,包含513百万条数据,涵盖114种语言。

论文5:Mission: Impossible Language Models

作者:Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
机构:斯坦福大学、加州大学尔湾分校、得克萨斯大学奥斯汀分校

论文地址:https://arxiv.org/pdf/2401.06416

乔姆斯基等人曾直言道,LLM在学习人类可能和不可能学习的语言方面具有同等能力。
然而,很少有公开发表的实验证据,支撑这种说法。
为此,研究人员开发了一组复杂程度不同的合成「不可能语言」,每种语言都是通过系统地改变英语数据,并用非自然词序和语法规则设计而成。
这些语言处在不可能语言的连续体上:一端是完全不可能语言,比如随机重排的英语;另一端是在语言学上被认为是不可能语言,比如基于词位置计数规则。


经过一系列评估,GPT-2在学习不可能语言方面,非常吃力,这对核心观点提出了挑战。
更为重要的是,研究者希望这种方法能够引发,更多关于LLM在学习不同类型语言方面能力的研究,以便更好地理解LLM在认知和语言类型学研究中的潜在应用。

论文6:Semisupervised Neural Proto-Language Reconstruction

作者:Liang Lu, Peirong Xie, David R. Mortensen
机构:卡内基梅隆大学、南加州大学

论文地址:https://arxiv.org/pdf/2406.05930

现有的原生语言比较重建工作,通常需要全程监督。
然而,历史重建模型只有在使用有限的标注数据进行训练时,才具有实用价值。
对此,研究人员提出了一种半监督历史重建任务。
在这种任务中,模型只需在少量标注数据(有原形的同源集)和大量无标注数据(无原形的同源集)的基础上进行训练。
作者研发出一种用于比较重建的神经架构——DPD-BiReconstructor,其中包含了语言学家比较方法中的一个重要观点:重建词不仅可以从其子词中重建出来,还可以确定性地转换回其子词中。
研究表明,这种架构能够利用未标记的同源词集,在这项新任务中的表现优于现有的半监督学习基线。

论文7:Why are Sensitive Functions Hard for Transformers?

作者:Michael Hahn, Mark Rofin
机构:萨尔大学

论文地址:https://arxiv.org/pdf/2402.09963

实证研究已经发现了Transformer模型一系列可学习性偏差和局限性,比如在学习计算简单形式语言(如PARITY)时始终存在困难,而且倾向与低阶函数。
然而,理论上的理解仍然有限,现有的表达能力理论要么过度预测,要么低估了实际的学习能力。
研究人员证明,在Transformer架构下,损失景观(loss landscape)受到输入空间敏感性的约束:
那些输出对输入字符串的多个部分敏感的Transformer模型,在参数空间中占据孤立点,导致在泛化中出现低敏感度偏差。
研究从理论和实证角度证明,最新理论统一了关于Transformer学习能力和偏差的惯犯经验观察,比如它们在饭还中,对地敏感度和低阶函数的偏好,以及在奇偶性问题上难以进行长度泛化。
这表明,理解transformer的归纳偏差不仅需要研究其原则上的表达能力,还需要研究其损失景观。

2篇时间检验奖


论文1:GloVe:Global Vectors for Word Representation(2014)

作者:Jeffrey Pennington, Richard Socher, Christopher Manning
机构:斯坦福大学

论文地址:https://nlp.stanford.edu/pubs/glove.pdf

词嵌入(word embedding)是2013年至2018年间NLP深度学习方法的基石,并且继续产生重大影响。它们不仅提高了NLP任务的性能,还在计算语义方面具有显著影响,如词相似性和类推。
最具影响力的两种词嵌入方法可能是skip-gram/CBOW和GloVe。与skip-gram相比,GloVe提出得更晚,其相对优势在于其概念上的简单性——直接基于单词的分布特征优化它们在向量空间中的相似性,而不是从简化语言建模的角度,将其作为一组参数进行间接优化。

论文2:Measures of Distibutional Similarity(1999)

作者:Lillian Lee
机构:康奈尔大学

论文地址:https://aclanthology.org/P99-1004.pdf

研究分布相似性度量,目的是改进对未见的共现(concurrence)事件的概率估计,相当于另一种方式表征单词间的相似性。
论文的贡献有三方面:对各种度量方式的广泛实证比较;基于相似度函数所包含的信息进行分类;引入了一种新函数,在评估潜在代理分布方面表现出色。









请到「今天看啥」查看全文