大模型专题：2024军事大模型评估体系白皮书（附下载）

人工智能学派 · 公众号 · · 2024-06-05 16:46

正文

今天分享的是大模型专题系列深度研究报告：《大模型专题：2024军事大模型评估体系白皮书》

（报告出品方：渊亭科技）

报告共计： 36 页

前言

数字化时代，人工智能技术正以前所未有的速度发展，其中大模型技术作为A领域的核心技术之一，已经成为推动社会进步和产业创新的重要力量。大模型,以其强大的数据处理能力和深度学习能力，正在多个领域展现出其独特的价值和潜力,从自然语言处理到图像识别，从智能推荐到自动驾驶，大模型正在不断拓宽人工智能的能力边界。

伴随着大模型技术的快速发展，越来越多应用在军事情报、指挥控制、智能武器、无人系统等领域的军事大模型应运而生，助推军事智能化转型。其中，对大模型的真实质量的掌握，对指导研究方向、优化能力设计、提升应用效能有着重要意义。全面、客观、准确的评估特定大模型针对场景的实际能力,需要有一个完善的模型评估方法论，科学、客观的对大模型的各项能力进行定性、定量评估。

近年来，渊亭科技积极参与行业内大模型的各项能力评估建设，取得了突出成果。作为国内最早从事军事大模型建设的企业之一，渊享科技凭借在军事智能化领域的深厚积累，编撰完成《军事大模型评估体系白皮书》。白皮书全面的整理了军事大模型能力评估方向的主流观点、关键要素，并重点阐述了针对典型维度进行系统化评估的最佳实践。预期能为行业内开展军事大模型的能力评估提供体系化的参考。

背景

2022年 11月，OpenAl发布了名为 ChatGPT的人工智能应用，其以预训练大语言模型 GPT3.5为基础，惊艳的自然语言交互效果，使得公众、行业对人工智能的能力预期大大提升，在国内外掀起了一股新的人工智能能力建设和应用浪潮。2024年2月，OpenAl公布了文生视频大模型 Sora、并提供若干样例视频，在行业内再一次引起巨大反响，以预训练大模型为核心的生成式人工智能技术，应用边界进一步拓宽。

在过去的几年中，中国的大模型技术和行业经历了快速的创新与发展。在通用大模型层面，百度、华为、阿里、讯飞、智谱、百川、月之暗面等企业根据自身的特点，采取开源、闭源等路线，持续聚焦底座模型效果和生态圈建设;在领域大模型层面，诸多传统企业和初创企业围绕 Al-Native、Al-Copilot等概念各展所长，或基于自身业务引入大模型巩固和强化竞争优势，或针对新的方向进行细分市场探索尝试创造新的商业模式;在场景应用层面，越来越多的“大模型目标用户”尝试整合私域数据，结合自身的战略布局，探索大模型技术的赋能方法，提升企业运营、生产制造、能力营销等方面的效率、质量。能力被认可和推广的一项重要前提，是合理、可行的能力评估。通用大模型层面,目前评估以“榜单”为主要的体现形态,例如 MMLU、CEval、SuperCLUE、GSM8K、Humaneval等，在不同榜单下各模型排名差异较大，原因在于评测数据、测试方法等还不够成熟、科学，且存在无意(例如训练数据集被污染)、恶意(例如主动将测试数据集纳入训练/微调过程)的“刷榜"现象。领域大模型层面，和通用大模型的能力评估现状相比，存在的问题更多，例如难以组织有效的领域测试数据集、使得大模型领域能力无从测起，没有系统的领域大模型生成和效果的测试方法、导致测试效果难被取信。目前国内已经有一些行业组织正在开展领域大模型相关的行标、国标建设。场景应用层些新的问题，例如模型生产和推理平台对企业既有基础设施的影响，模型和现场数据、系统之间的协同，模型在复杂使用环境下的安全保障等。

随着国防智能化建设的深入，军内很多机构都对大模型能力产生了浓厚的兴趣，军事大模型应用场景也非常丰富，如军事情报、指挥控制、智能武器、无人系统等领域。军事大模型作为一类特殊的领域大模型，也有一些自身的能力评估特点。

军事领域的数据的机密性和敏感性众所周知。一方面，基础大模型很难在预训练/微调阶段注入足够的军事知识，军事认知必须在领域大模型构建过程中形成,使得领域大模型的军事常识能力评估显得愈发重要;另一方面，常识能力评估所需的数据集，也因为军事数据的特点，领域大模型的评测数据集构建更为困难，因此更难展开有效的领域大模型评估工作。

军事领域高对抗性的特点,使得军事大模型和常规领域大模型相比面临着更为严峻的安全挑战。例如，通用大模型面临的偏见，在军事领域可能升级为“认知战”手段、对方刻意对大模型能力进行干扰;又例如传统人工智能模型面临的对抗攻击、内容伪造、数据泄露问题在军事大模型应用场景中需要得到更多的评估。

大模型专题：2024军事大模型评估体系白皮书（附下载）

正文

背景

请到「今天看啥」查看全文