大数据文摘授权转载自HyperAI超神经
作者:田小幺
8 月 11 日,享誉全球的 Annual Meeting of the Association for Computational Linguistics (计算语言学协会年度会议,简称 ACL) 在泰国曼谷正式开幕。ACL 2024 为期 6 天,除主会外,还有 34 场 Workshops。
自 2022 年起,ACL 启用了滚动审稿机制 (ACL Rolling Review, ARR),每月设定一个截止日期。今年 1 月,官方还宣布了一项利好消息——论文投稿取消匿名期,同时允许作者在投稿期间宣传自身工作。这一规定也在公布后的下一个审稿周期直接生效。
根据官方数据显示,今年的主会录用率为 21.3%,Findings 录用率为 22.1%。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXFMeREekGwlIafnPzlwKKydmRhYACCBpSsozErWbqkicibyqDsiayfAuicg/640?wx_fmt=png&from=appmsg)
值得一提的是,ACL 2024 还增加了一个特别专题「Open science, open data, and open models for reproducible NLP research」,该专题接收高质量开源数据集、开源模型、开源软件等相关研究成果,旨在激发业内有关开放科学和可重现 NLP 研究的讨论,并支持开源软件发展。
![](http://mmbiz.qpic.cn/sz_mmbiz_jpg/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXSN1JAFWxY581OfRndzjZFZRQUMqrVF2mdd9MHwLcAjE173Ue9TD1Sg/640?wx_fmt=jpeg)
8 月 14 日,ACL 2024 的一系列奖项陆续公布。该专题接收了 22 篇主会论文,获得专题论文奖的是「OLMo: Accelerating the Science of Language Models」。
论文地址:
https://arxiv.org/pdf/2402.00838
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXRUdLNVN8aXrdwl3wrEY9JphT7LRB7a9DxUdfvxDNaUib7eRevfpZx8Q/640?wx_fmt=png&from=appmsg)
图源:谷歌 DeepMind 研究员 Shmuhammadd
时间测试奖 (Test of Time Award) 颁给了 2014 年发表的「GloVe: Global Vectors for Word RepresentationGloVe」。
论文地址:
https://aclanthology.org/D14-1162.pdf
![](http://mmbiz.qpic.cn/sz_mmbiz_jpg/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXRic0tdONS46uMxlCd12TzLZYicoXyjDPdOOCibzialwaUaTII4pUuaQCCw/640?wx_fmt=jpeg)
图源:谷歌 DeepMind 研究员 Shmuhammadd
此外,ACL 2024 还评选出了 7 篇最佳论文,华中科技大学、阿德莱德大学、安阳师范学院、华南理工大学共同发表的「Deciphering Oracle Bone Language with Diffusion Models」荣获最佳论文,第一作者为华中科技大学软件学院院长白翔教授团队 2021 级本科生管海粟。HyperAI超神经将在本文为大家带来详细解读。
剩余 6 篇获奖论文分别是:
Causal Estimation of Memorisation Profiles
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXe9jvgKw3ibdpaXoXgukI5JiaeB18lTG34HicyP4ticpzOtUPicZopribg8CA/640?wx_fmt=png&from=appmsg)
* 论文地址:
https://arxiv.org/abs/2406.04327
* 研究机构:剑桥大学、苏黎世联邦理工学院
* 研究内容:研究人员提出了一种新的、有原则且高效的记忆估计方法,只需要观察模型在整个训练过程中的一小部分实例行为,就可以描绘出模型的记忆特征——即其在训练过程中的记忆趋势。
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Mode
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXUHQaZ5ckpth6GCTgsicWqlkicqOuJUWichBuyHYIGkLS8F7cynPVRWKHw/640?wx_fmt=png&from=appmsg)
* 论文地址:
https://arxiv.org/abs/2402.07827
* 研究机构:Cohere For AI、布朗大学、Cohere、Cohere For AI Community、麻省理工学院、卡内基梅隆大学
* 研究内容:研究人员推出了一个大规模多语言生成语言模型 Aya,遵循 101 种语言的指令,覆盖语言种类增加了两倍。此外,研究人员还引入了广泛的新评估套件,扩展了 99 种语言的多语言评估技术。
ExplainableDetector: Exploring Transformer-based Language Modeling Approach for SMS Spam Detection with Explainability Analysis
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXm5IjWIoFw0Yiah63ibbkGcEHuibicF6cLCfxKA6pPK8tLn8M9RY1flZFgg/640?wx_fmt=png&from=appmsg)
* 论文地址:
https://arxiv.org/abs/2405.08026
* 研究机构:孟加拉国 BGC 信托大学、爱丁堡纳皮耶大学、伊迪斯科文大学
* 研究内容:研究人员采用优化微调的 Transformer-based 大语言模型来检测垃圾邮件。结果表明,优化微调的 BERT 变体模型 RoBERTa 能够获得 99.84% 的高准确率。
Semisupervised Neural Proto-Language Reconstructior
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXf6mj9Gt3UoXzHnusaxfkGXocPUZSLpNhXTrtTyptBVwz69icl2FuMpg/640?wx_fmt=png&from=appmsg)
* 论文地址:
https://arxiv.org/abs/2406.05930
* 研究机构:卡内基梅隆大学、南加州大学
* 研究内容:研究人员提出了一个半监督的历史重建任务,模型只在少量标记数据和大量未标记数据上进行训练。还研发了一个比较重建的神经架构 DPDBiReconstructor,结合语言学家比较方法的基本见解,能够利用未标记的同源词集,在新任务上的性能优于强半监督基线。
Mission: lmpossible Language Models
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBXhq0HG28HZNMob62V3yeSEa0l4FZsL2rHwur8UmRTKvpkOrV3iczPuPA/640?wx_fmt=png&from=appmsg)
* 论文地址:
https://arxiv.org/abs/2401.06416
* 研究机构:斯坦福大学、加州大学、德克萨斯大学
* 研究内容:研究人员合成了一系列复杂的、不存在的语言,并评估 GPT-2 模型对这些语言的学习能力,结果发现,相比于学习英语,GPT-2 在学习不可能语言方面存在困难。
Why are Sensitive Functions Hard for Transformers
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083Ah6zic7sjrdw4DpwR4qGoSBX1zYJQsI5UBV671J6GiasxIFwxrH20szZ8HPjByUbrwtiaZe0s9D9d3Uw/640?wx_fmt=png&from=appmsg)
* 论文地址:
https://arxiv.org/abs/2402.09963
* 研究机构:德国萨尔大学
* 研究内容:在 Transformer 架构下,损失景观 (loss landscape) 受到输入空间敏感性的限制,通过理论和实证,该理论可以统一关于 Transformer 学习能力和偏见的广泛实证观察 (broad array of empirical observations)。
接下来,HyperAI超神经将分别从模型架构、数据集、研究成果及团队介绍 4 个方面,为大家深度解读「Deciphering Oracle Bone Language with Diffusion Models」。
在该研究中,华中科技大学白翔、刘禹良研究团队联合阿德莱德大学、安阳师范学院、华南理工大学,利用基于图像的生成模型,训练出了一种针对甲骨文破译优化的条件扩散模型 Oracle Bone Script Decipher (OBSD),该模型利用甲骨文的不可见类别 (unseen categories) 作为条件输入,以生成对应的现代汉字图像,为自然语言处理难以解决的古文字识别任务提供了一种新颖的方法。
研究亮点:
* 通过使用图像生成技术,为古文字识别任务提供了一种新颖的方法
* OBSD 用局部分析采样技术增强了模型对字符复杂模式进行区分和解释的能力
* 通过全面的消融研究和基准测试,证明 OSBD 在解码方面的有效性
该研究所使用的数据集下载链接:
* EVOBC 甲骨文文字演化数据集:
https://go.hyper.ai/4UAJR
* HUST-OBS 甲骨文识别数据集:
https://go.hyper.ai/46AiA
数据集:采用甲骨文最大存储库,以 OCR 技术作为衡量标准
为了训练和评估所提出的 OSBD 模型,该研究选择了 HUST-OBS 数据集和 EVOBC 数据集,它们是甲骨文的最大存储库之一,包含 7,1698 张图片描绘的 1,590 个不同的字符。
考虑到破译未知的甲骨文通常需要更为全面的专业验证,该研究仅将已被破译的文字作为测试集,从而简化了整个评估过程。更重要的是,该研究还对测试集中选择过的字符类别专门在训练集中进行了排除,确保该模型被用来破解的是从未处理过的字符。该数据集按 9:1 的比例划分为训练集和测试集,为评估提供了可靠的框架。
另外,虽然 OSBD 模型是从图像生成的角度进行甲骨文破译,但传统的 SSIM 等图像生成度量指标并不适合这项任务。因此,该研究采用 OCR 技术作为对破译成功结果判定的更客观的衡量标准。具体来看,研究人员通过使用 ResNet-101 骨干网络的简单分类器定制 OBS-OCR 工具,专门针对包含 88,899 个现代汉字类别的大型数据集进行训练,以评估模型的输出。
结果表明, 定制 OCR 工具实现了 99.87% 的识别准确率,证明了破译结果的可靠性。同时,该研究还广泛引入了开源中文 OCR 工具 PaddleOCR 1,从而进行进一步的评估。这种双 OCR 方法为模型破译甲骨文的有效性提供了强大保障。
这项研究将训练集表示为 S = {(si, ci) | si 是一个甲骨文实例,ci∈C},即将甲骨文实例与一组已知类别 C 中的现代汉字对应起来,并在现有匹配缺失的地方提出新的字符形式。为了实现这一点,该研究基于扩散模型将甲骨文字符图像 X 转换为其现代汉字等价物。
如下图所示,该模型分为两个阶段:
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083AhugkAq010PNFDGE1ntSPdINGpdeuPVibQQYMf9y4gsgqjnsgPMpIvfj90axpHIhUibWK9ManKJpphw/640?wx_fmt=png&from=appmsg)
甲骨文译码的条件扩散模型
在前期阶段中 (Noising),研究人员通过向现代汉字图像 X0 引入噪声,利用可控的马尔可夫链过程,将其过渡到类似于纯噪声的状态,最终形成高斯分布 N (0, I)。
在去噪 (Denoising) 阶段中,研究人员使用 U-Net 架构训练模型 fθ 预测噪声 e 和恢复图像,并且利用 et ∼ N(0, I) 引入随机性,以增强模型生成结果的多样性,最终解码的结果是生成去噪图像 X0。
在此基础上,OBSD 模型集成了初步破译阶段(Initial Decipherment)和零样本学习阶段(Zero-shot Refinement),以提高解密精度,如下图所示。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083AhugkAq010PNFDGE1ntSPdIP7xGWxKOYN9fI1XS43A7D7XNGqnibB1gL4ibvMupavlDs1dWbVXGQ4UA/640?wx_fmt=png&from=appmsg)
OBSD 概述
首先,通过对甲骨文图像 X 进行条件扩散以逼近初始图像 X0,然后通过零样本学习方法对其进行改进,并且利用 Xref 作为参考来纠正和增强结构。受益于改进过程中对文字结构的洞察,最终生成了对标现代汉字的文字结果 XF。
引入 LSS 概念,增强模型在古代文字与现代汉字之间的连接能力
然而,在实际的应用案例中,这样训练的模型并不能准确生成所对应的现代汉字,而是基于大量随机片段构成了一些胡言乱语,如下图所示。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083AhugkAq010PNFDGE1ntSPdIMkh1rHl69X5Hib5XfCIljujoZGRW3ZSrV9fTVNmOTibe8gqg0eU5tlsg/640?wx_fmt=png&from=appmsg)
直接应用条件扩散模型导致破译失败
研究人员推测造成这个结果的原因是:扩散模型主要是为了生成自然图像而设计,但在甲骨文破译过程中,甲骨文图像与现代汉字之间的结构存在极大差异,这使得标准条件扩散模型无法准确重建目标现代汉字。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083AhugkAq010PNFDGE1ntSPdIc2JrJ78blmbH8n091PJjP7ZFpykdBXLqT2RJZDefrNKdnzFBIrArTg/640?wx_fmt=png&from=appmsg)
汉字「宗」的对比分析
为了解决这一挑战,该研究引入了局部结构采样 (LSS) 概念,帮助扩散模型学习如何将甲骨文的局部部首结构映射到相应的现代汉字之中,从而增强模型在古代文字与现代汉字之间的连接能力。研究还发现,尽管从古代汉字到现代汉字存在相当大的结构演变,但某些局部结构得到了保留。
为了使扩散模型能够学习局部结构的特征,LSS 模块采用滑动窗口方法将目标现代汉字图像 X0∈RHxWx3 和对应的甲骨文图像 X∈RHxWx3 分割成大小为 p×p 的 D 个小块,表示为 X(d) 和 Xt(D)∈Rp×p×3, D=1,2…D, p=64。在这里,Xt 表示在时间步长 t 上添加高斯噪声 ϵt 的现代文本图像。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083AhugkAq010PNFDGE1ntSPdI7CdjuDkRqrDO3pcPECgiaVibiaqbOQvUnqSy2SBOyFe0kD4OT6IgJl3QA/640?wx_fmt=png&from=appmsg)
OBSD 初始破译的总体流程
基于此方法,模型可通过学习甲骨文的局部结构和汉字结构的细小差别来迭代和优化补丁。该研究方法的独特之处在于,它在没有完成去噪的情况下,就在每个时间步长 t 上对相邻区域之间的重叠进行平均,以确保共享区域的均匀效果。同时,该研究通过在平滑采样过程中的区域性过渡,避免了边缘差异,保持了重建图像的视觉一致性。
尽管使用局部结构采样生成现代汉字取得了一定进步,但最初的破译工作仍然会遇到结构变形和伪影等明显的障碍。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083AhugkAq010PNFDGE1ntSPdI1mhQ5CnJAwCovPfvKCtegb9guqZ8kiaOY5yEBzAAsWicOK2lYMX5Qx6w/640?wx_fmt=png&from=appmsg)
破译初期出现大量伪影和变形
这是由于使用的是多对一训练方法,即将多个甲骨文实例与一个现代汉字图像进行映射,导致在捕捉字符演化时出现混淆和不准确,并且由于现代汉字样本有限,导致出现了不完整的结构。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083AhugkAq010PNFDGE1ntSPdIjT8VXM2QNulZaAePcVJntfRibBKOIsV0DGia3EQXEib0Z6DQCfkEoQHcg/640?wx_fmt=png&from=appmsg)
多对一和一对一训练范例的比较
为了克服这些挑战,该研究提出了一种零样本学习策略,通过使用不同的现代汉字书写风格来提高模型对结构的理解。在实际操作中,该研究在 20 种不同的现代汉字字体上,以一对一的方式训练了该模块,从而学习了不同现代汉字书写风格之间的结构变换,增强了模型对字符结构的理解能力。
如下图所示,该零样本学习方法基于一个通用字体风格转换框架,通过双编码器系统,使源字体图像 X0 的样式适应目标样式 Xref,同时保留内容完整性。风格编码器 Es 从 Xref 提取样式特征 es,而内容编码器 Ec 处理 Xo 和 Xref 以获得多尺度内容特征 Fo,并通过具有多尺度内容聚合 (MCA) 和参考结构的 Font U-Net 进行精炼。训练完成后,即可直接使用零样本学习模块对扩散模型生成的结果进行优化。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/QkCvnz083AhugkAq010PNFDGE1ntSPdIAG80XiaiaLmXoINribFsDXuCvbVDRlB9fbMv8gSjoxOEtuQn1MwfKdZkQ/640?wx_fmt=png&from=appmsg)
零样本学习策略概述
OSBD 表现评估:在多重评估标准下的识别准确率均为最高
为了定量评估 OSBD 的表现,该研究使用了单轮解密和多轮解密两种不同的评估标准。由于没有专门用于甲骨文破译的工具,该研究采用了一个比较框架,使领先的图像到图像的翻译方法适应于这项任务。
具体来看,这些方法包括 Pix2Pix, CycleGAN, DRIT ++ 等基于 GAN 的方法,以及 CDE, Palette, BBDM 等扩散模型。这种设定保证了 OBSD 方法能够在最新的图像转换背景下进行评估,并且确保了公平的一致性训练和测试条件。
在单轮解密评估中,OBSD 在破解甲骨文方面相较于修改后的图像到图像的转换方法具有显著优势,如下图所示。
OSBD 通过 OBS-OCR 和 PaddleOCR 实现的 top-1 准确率分别为 41.0% 和 30.0%,表现相较于其他方法更优。随着排名的提高,准确度有明显的改善趋势,在 top-500 准确率下,OSBD 达到了 64.5% 的 OBS-OCR 识别准确率。