专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
融媒吴江  ·  《哪吒2》萌值担当!也来吴江啦! ·  昨天  
融媒吴江  ·  《哪吒2》萌值担当!也来吴江啦! ·  昨天  
天津广播  ·  刚刚 | 董明珠:找到接班人! ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

大语言模型的评估:综述

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-05-23 00:38

正文

23年8月 来自吉林大学、微软、中科院自动化所、CMU、西湖大学、北大、UIC和香港科技大学等 的综述论文“A Survey on Evaluation of Large Language Models“。

大语言模型(LLM)的评估变得越来越重要,不仅在任务层面,而且在社会层面,是为了更好地了解其潜在风险。本文对LLM的评估方法进行了全面的综述,重点关注三个关键维度:评估什么、在哪里评估以及如何评估。首先,从评估任务的角度进行了概述,包括一般的自然语言处理任务、推理、医学使用、伦理、教育、自然科学和社会科学、智体应用和其他领域。其次,通过深入研究评估方法和基准来回答“在哪里”和“如何”的问题,这些方法和基准是评估LLM绩效的关键组成部分。然后,总结LLM在不同任务中的成功和失败案例。最后,阐明LLM评估的未来要面临的几个挑战。

如图是该文的架构:


AI模型评估是评估模型性能的重要步骤,目前已有标准的模型评估方法包括k-fold交叉验证、保留验证、leave-one-out交叉验证(LOOCV)、自举法(boot-stran)和缩减集(Berrar,2019; Kohavi等,1995)。 例如,k-fold交叉验证将数据集分成k份,其中一份作为测试集,另一份作为训练集,可以减少训练数据损失,获得相对更准确的模型性能评估(Fushiki,2011); 保留验证将数据集分为训练集和测试集,计算量较小,但可能存在较大偏差; LOOCV是一种独特的k-fold交叉验证方法,仅使用一个数据点作为测试集(Wong,2015); 缩减集用一个数据集训练模型,用剩余数据进行测试,计算简单,但适用性有限。 应根据具体问题和数据特点选择合适的评估方法,以获得更可靠的性能指标。

如图展示人工智能模型(包括LLM)的评估过程。由于训练规模庞大,一些评估协议可能无法评估深度学习模型。因此,长期以来,对静态验证集的评估一直是深度学习模型的标准选择。例如,计算机视觉模型利用静态测试集,如ImageNet(Deng 2009)和MS COCO(Lin 2014),进行评估。LLM还使用GLUE(Wang2018)或SuperGLUE(Wang2019)作为常见测试集。


在哪些任务上评估 LLM 以显示其性能? 在哪些任务上可以宣称 LLM 的优势和劣势? 现有任务分为以下类别: 自然语言处理、稳健性、道德、偏见和可信度、社会科学、自然科学和工程、医学应用、智体应用(使用 LLM 作为智体)和其他应用。

语言模型(尤其是大型语言模型)开发的最初目标是提高自然语言处理任务的性能,包括理解和生成。因此,大多数评估研究主要集中在自然语言任务上。下表是现有自然语言处理任务评估总结:NLU(自然语言理解),包括SA(情感分析)、TC(文本分类)、NLI(自然语言推理)和其他NLU任务)、Rng(推理)、NLG(自然语言生成,包括Summ(总结)、Dlg(对话)、Tran(翻译)、QA(问答)和其他NLG任务)和Mul(多语言任务)(按第一作者姓名排序)。


自然语言理解代表了广泛的任务,旨在更好地理解输入序列。 从几个方面总结LLM 评估的方面。

情感分析 是一项分析和解释文本以确定情感倾向的任务。它通常是二元(正面和负面)或三元(正面、中性和负面)类分类问题。评估情感分析任务是一个流行的方向。ChatGPT 的情绪分析预测性能优于传统的情绪分析方法 (Lopez-Lira and Tang, 2023),接近 GPT-3.5 (Qin et al., 2023a)。在细粒度的情绪和情绪因果分析中,ChatGPT 也表现出卓越的性能 (Wang et al., 2023j)。在低资源学习环境中,LLM 比小型语言模型表现出明显的优势 (Zhang et al., 2023d),但 ChatGPT 理解低资源语言的能力有限 (Bang et al., 2023)。总之,LLM 在情绪分析任务中表现出了令人称赞的表现。未来的工作应该侧重于增强它们理解资源匮乏语言中情绪的能力。

文本分类和情绪分析 是相关领域,文本分类不仅关注情绪,还包括所有文本和任务的处理。总体而言,LLM 在文本分类方面表现良好,甚至还可以处理非常规问题设置中的文本分类任务。

自然语言推理 (NLI) 是确定给定的“假设”是否在逻辑上遵循“前提”的任务。Qin (2023a) 表明,ChatGPT 在 NLI 任务上的表现优于 GPT-3.5。他们还发现 ChatGPT 在处理事实输入方面表现出色,这可以归因于其 RLHF 训练过程有利于人类反馈。然而,Lee (2023) 观察到 LLM 在 NLI 范围内表现不佳,并且无法表示人类的分歧,这表明 LLM 在这一领域仍有很大改进空间。

语义理解 是指语言及其相关概念的含义或理解。它涉及对单词、短语、句子及其之间关系的解释和理解。语义处理超越了表面层次,侧重于理解潜在的含义和意图。Tao (2023) 全面评估了 LLM 的事件语义处理能力,涵盖了对事件语义的理解、推理和预测。结果表明,LLM 能够理解单个事件,但感知事件间语义相似性的能力有限。在推理任务中,LLM 在因果关系和意向关系中表现出强大的推理能力,但在其他关系类型中的表现相对较弱。在预测任务中,随着上下文信息的增加,LLM 对未来事件的预测能力增强。Riccardi & Desai (2023) 探索了 LLM 的语义能力,并表明这些模型在评估基本短语方面表现不佳。此外,GPT-3.5 和 Bard 无法区分有意义和无意义的短语,始终将高度无意义的短语归类为有意义的。GPT-4 显示出显着的改进,但其性能仍然明显低于人类。总之,LLM 在语义理解任务中的表现较差。

社会知识理解 领域,Choi (2023) 评估了模型在学习和识别社会知识概念方面的表现,结果表明,尽管参数数量少得多,但微调监督模型(如 BERT)的性能比使用最先进的 LLM 的零样本模型(如 GPT (Radford,2018)、GPT-J-6B (Wang and Komatsuzaki, 2021) )要好得多。这句话表明,监督模型在性能方面明显优于零样本模型,强调在这种特定情况下,参数的增加并不一定能保证更高水平的社会知识。

推理任务对智能 AI 模型提出了重大挑战。为了有效地解决推理任务,模型不仅需要理解所提供的信息,而且还需要在没有明确答案的情况下利用推理和推理来推断答案。上表表明,人们对评估 LLM 的推理能力的兴趣日益浓厚,越来越多的文章专注于探索这一方面。目前,推理任务的评估大致可分为数学推理、常识推理、逻辑推理和域特定推理。

自然语言生成 (NLG) 评估 LLM 生成特定文本的能力,它包含多项任务,包括摘要、对话生成、机器翻译、QA 和其他开放式生成应用程序。

虽然英语是主要语言,但许多 LLM 都是在混合语言训练数据上进行训练的。多语言数据的结合确实有助于 LLM 获得处理输入和生成不同语言响应的能力,从而使其在全球范围内得到广泛采用和接受。然而,由于这项技术出现的时间相对较晚,LLM 主要基于英语数据进行评估,这可能导致对其多语言性能的评估出现疏漏。

在 LLM 中,事实性是指模型提供的信息或答案与现实世界的事实和可验证的事实的一致程度。LLM 中的事实性对各种任务和下游应用有重大影响,例如 QA 系统、信息提取、文本摘要、对话系统和自动事实核查,其中不正确或不一致的信息可能会导致严重的误解和曲解。评估事实性对于信任和有效使用这些模型至关重要。这包括这些模型与已知事实保持一致的能力、避免产生误导性或虚假信息(称为“事实幻觉”)以及有效学习和回忆事实知识的能力。

LLM的评估涵盖稳健性、道德、偏见和可信度等关键方面。这些因素在全面评估LLM的表现时变得越来越重要。下表对 LLM 的稳健性、道德性、偏见和可信度的评价总结(按第一作者姓名排序)。


社会科学是研究人类社会与个体行为的学科,涵盖经济学、社会学、政治学、法学等学科,评估社会科学LLM的学术表现,对学术研究、政策制定、社会问题解决等具有重要意义,有助于提升社会科学模型的适用性和质量,增进对人类社会的理解,促进社会进步。

评估LLM在自然科学和工程领域的表现有助于指导科学研究、技术开发和工程研究的应用和发展。

对于基本数学问题,大多数LLM表现出加法和减法的熟练程度,并具有一定的乘法能力。然而,它们在除法、指数运算、三角函数和对数函数方面面临挑战。另一方面,LLM在处理小数、负数和无理数方面表现出色 (Yuan,2023b)。

LLM在化学领域的应用需要进一步改进。(Arora,2023) 表明LLM在物理问题上的表现比化学问题差,可能是因为在这种情况下化学问题的推理复杂度低于物理问题。在一般科学领域,对 LLM 的评估研究有限,目前的结果表明,LLM 在该领域的性能需要进一步提高。

在工程领域,任务可以按难度升序排列,包括代码生成、软件工程和常识规划。

如表从数学、科学、工程三个方面对自然科学与工程课题的评价汇总(按第一作者姓名排序)。

LLM 在医学领域的应用最近受到了广泛关注。 这些应用分为三个方面,如表所示: 医疗查询、医疗检查和医疗助理。 详细研究这些类别将增强对 LLM 可能给医学领域带来的潜在影响和优势的理解。

LLM 不仅可以专注于一般的语言任务,还可以用作各个领域的强大工具。 为 LLM 配备外部工具可以大大扩展模型的功能(Qin,2023b)。 ToolLLM(Qin,2023c)提供了一个全面的框架,使开源大语言模型具备工具使用能力。

除了上述类别外,还对其他各个领域的 LLM 进行了评估,包括教育、搜索和推荐、人格测试和特定应用。如表所示从Edu.(教育)、Sea. & Rec.(搜寻与推荐)、Pers. Test.(人格测试)及特别应用四个方面对其他领域的应用评价汇总(按第一作者姓名排序)。

LLM 评估数据集用于测试和比较不同语言模型在不同任务上的性能。 这些数据集,例如 GLUE(Wang et al.,2018)和 SuperGLUE(Wang et al.,2019),旨在模拟现实世界的语言处理场景,涵盖文本分类、机器翻译、阅读理解和对话生成等多种任务。

随着 LLM 基准的不断发展,出现了各种基准来评估其性能。30 个流行的基准如表所示。每个基准都侧重于不同的方面和评估标准,为各自的领域提供了宝贵的贡献。为了更好地总结,基准分为两类:一般语言任务的基准和特定下游任务的基准。


LLM 旨在解决绝大多数任务。 为此,现有的基准测试倾向于评估不同任务中的表现。

Chatbot Arena (LMSYS, 2023) 和 MT-Bench (Zheng et al., 2023) 是两个重要的基准测试,它们有助于评估和改进不同环境中的聊天机器人模型和 LLM。Chatbot Arena 提供了一个平台,可以通过用户参与和投票来评估和比较不同的聊天机器人模型。用户可以与匿名模型互动并通过投票表达他们的偏好。该平台收集了大量的投票,有助于评估模型在现实场景中的表现。Chatbot Arena 为聊天机器人模型的优势和局限性提供了宝贵的见解,从而促进了聊天机器人研究和发展的进步。

除了一般任务的基准之外,还存在专门为某些下游任务设计的基准。

常见的评估方法包括:自动评估和人工评估。其实,“如何评估”的分类也没有明确的,根据评估标准是否可以自动计算来分类,如果可以自动计算,就属于自动评估,否则就属于人工评估。

要强调的是,没有证据明确表明某一特定的评估协议或基准是最有用和最成功的,而是具有不同的特点和重点。这也表明,没有一个模型可以在所有类型的任务中表现最佳。通过总结和分析现有的 LLM 评估工作,可以确定 LLM 当前的成功和失败案例,得出评估协议的新趋势,最重要的是,为未来的研究提出新的挑战和机遇。

LLM能做得好吗?

  1. •LLM产生流畅准确的语言表达来证明其在生成文本方面的熟练程度。







请到「今天看啥」查看全文