MLNLP
(
机器学习算法与自然语言处理
)社区是国内外最大的自然语言处理社区之一,汇聚超过50w订阅者,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景
是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步。
预训练+微调的做法,在多个下游领域取得优异的表现。而在过去的一年里,预训练模型更是在往大而深的方向发展。
目前,国内已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。
但是模型在往大而深方向发展的同时,也存在如下亟待解决的问题:
对比学习的出发点在于避免模型坍塌,理想的模型应该符合 alignment 和 uniformity,即语义相近的句子彼此聚集,语义无关的句子均匀分布。
如果仅仅通过数据增强构建正例,随机句子作为负例,并为其打上 0,1 标签,存在以下问题:
因此对比学习的核心思想转变为:

其中,X 代表原样本,x' 代表数据增强的正样本,Y 代表随机选择的负样本。根据该思想,对比学习采用 InfoNCE 损失函数:
prompt 被誉为 NLP 领域的新范式,与预训练+微调的范式相比,其过程分为:"pre-train, prompt, and predict"。
prompt 的出发点在于以更轻量化的方式利用预训练模型,避免微调与预训练之间存在的差异。
prompt 通过构建模版的方式,将下游任务转为与预训练相似的 MLM 任务,以该方式充分发挥预训练模型的性能。
以文本情感分类任务中,"I love this movie."句子为例,prompt 按照以下方式进行处理:
其中,x' 为生成的 prompt 句子,x 为输入句子,f_prompt为 prompt 函数。
在本例中,使用的模版为:" [X] Overall, it was a [Z] movie."
因此,得到的,x'
为"I love this movie. Overall it was a [Z] movie.
该步骤将 x‘
输入模型,模型完成模版空白位置的词语预测。
在本例中,模型可能预测为:"excellent", "great", "wonderful" 等词语
通常模型预测的词语与任务输出存在一定差距,因此我们需要完成词语到输出结果的映射。
在本例中,"excellent", "great", "wonderful" 等词语映射为标签 "++"
1. 长尾效应
:自然界中的数据分布就是长尾的,在学习的过程中,模型容易发生过拟合,泛化性较差。
2. 数据噪声
:有标签的数据,在标注过程中就不可避免的存在噪声。尤其是多位人员一起标注时,不同标注人员根据自身的理解完成数据的标注,但不同的人自身理解存在偏差,因此标注结果极易存在误差。归根到底:标注的规范难以确定,无法统一大家的知识库。
当前我遇到的一些问题分享:模型仍无法很好地处理下述问题:
太阳有几只眼睛?
姚明与奥尼尔身高谁比较高?
猫咪可以吃生蛋黄吗?猫咪是可以吃蛋黄的。这里特定煮熟的白水蛋,猫咪不能吃生鸡蛋,因为生鸡蛋中有细菌。
物质都是由分子构成的吗?物质都是由分子构成的,分子又由原子构成-错的!因为有些物质是不含分子的。
1. 缺乏知识
,由于预训练与微调领域存在偏差,模型在下游任务中缺乏特定知识,同时模型在一些常识问题上表现较差。
2. 缺乏深度语义的理解
,模型表现的更像通过字面匹配完成任务,推理的成分更弱。
当前研究热点仍然在于挖掘预训练模型的能力,但在基于常识性知识与逻辑推理的问题上,这种基于数据驱动的方式从底层就存在问题。引用一下大咖们对 2022 年的展望。
大模型一方面在不少问题上取得了以往难以预期的成功,另一方面其巨大的训练能耗和碳排放是不能忽视的问题。个人以为,大模型未来会在一些事关国计民生的重大任务上发挥作用,而在其他一些场景下或许会通过类似集成学习的手段来利用小模型,尤其是通过很少量训练来 “复用” 和集成已有的小模型来达到不错的性能。
我们提出了一个叫做 “学件” 的思路,目前在做一些这方面的探索。大致思想是,假设很多人已经做了模型并且乐意放到某个市场去共享,市场通过建立规约来组织和管理学件,以后的人再做新应用时,就可以不用从头收集数据训练模型,可以先利用规约去市场里找找看是否有比较接近需求的模型,然后拿回家用自己的数据稍微打磨就能用。这其中还有一些技术挑战需要解决,我们正在研究这个方向。
另一方面,有可能通过利用人类的常识和专业领域知识,使模型得以精简,这就要结合逻辑推理和机器学习。逻辑推理比较善于利用人类知识,机器学习比较善于利用数据事实,如何对两者进行有机结合一直是人工智能中的重大挑战问题。麻烦的是逻辑推理是严密的基于数理逻辑的 “从一般到特殊”的演绎过程,机器学习是不那么严密的概率近似正确的 “从特殊到一般”的归纳过程,在方法论上就非常不一样。已经有的探索大体上是以其中某一方为倚重,引入另一方的某些成分,我们最近在探索双方相对均衡互促利用的方式。
谈谈自己的理解,
预训练模型的方式归根到底仍然属于数据驱动的任务,其通过在大规模数据上学习,推断未知数据的概率。如果说数据中存在表述不准确、表述有歧义或者词汇本身就有多个含义的话,以概率的方式难以解决这些问题。
而人脑在未知问题上,推理成分居多,以一词多义为例,人类会考虑该词汇有几种用法,考虑在这种上下文语境下使用哪一种用法,所以是否可以建立一套类似于标准公理的语言规范,以该规范为基础,对未知句子进行拆解推理,理解句子的完整含义。通过了解模型的推理过程,模型的可解释性增强。当预测错误时,我们可以进行溯源分析,对模型依赖的知识进行调整,或者让模型学习的更充分。
1. 自身学习更多模型结构变化的同时,更多地理解业务的架构,明白模型在业务中起的作用。