今天分享的是
大模型专题系列
深度研究报告:《
大模型专题:2024军事大模型评估体系白皮书
》
(报告出品方:
渊亭科技
)
报告共计:
36
页
前言
数字化时代,人工智能技术正以前所未有的速度发展,其中大模型技术作为A领域的核心技术之一,已经成为推动社会进步和产业创新的重要力量。大模型,以其强大的数据处理能力和深度学习能力,正在多个领域展现出其独特的价值和潜力,从自然语言处理到图像识别,从智能推荐到自动驾驶,大模型正在不断拓宽人工智能的能力边界。
伴随着大模型技术的快速发展,越来越多应用在军事情报、指挥控制、智能武器、无人系统等领域的军事大模型应运而生,助推军事智能化转型。其中,对大模型的真实质量的掌握,对指导研究方向、优化能力设计、提升应用效能有着重要意义。全面、客观、准确的评估特定大模型针对场景的实际能力,需要有一个完善的模型评估方法论,科学、客观的对大模型的各项能力进行定性、定量评估。
近年来,渊亭科技积极参与行业内大模型的各项能力评估建设,取得了突出成果。作为国内最早从事军事大模型建设的企业之一,渊享科技凭借在军事智能化领域的深厚积累,编撰完成《军事大模型评估体系白皮书》。白皮书全面的整理了军事大模型能力评估方向的主流观点、关键要素,并重点阐述了针对典型维度进行系统化评估的最佳实践。预期能为行业内开展军事大模型的能力评估提供体系化的参考。
背景
2022年 11月,OpenAl发布了名为 ChatGPT的人工智能应用,其以预训练大语言模型 GPT3.5为基础,惊艳的自然语言交互效果,使得公众、行业对人工智能的能力预期大大提升,在国内外掀起了一股新的人工智能能力建设和应用浪潮。2024年2月,OpenAl公布了文生视频大模型 Sora、并提供若干样例视频,在行业内再一次引起巨大反响,以预训练大模型为核心的生成式人工智能技术,应用边界进一步拓宽。
在过去的几年中,中国的大模型技术和行业经历了快速的创新与发展。在通用大模型层面,百度、华为、阿里、讯飞、智谱、百川、月之暗面等企业根据自身的特点,采取开源、闭源等路线,持续聚焦底座模型效果和生态圈建设;在领域大模型层面,诸多传统企业和初创企业围绕 Al-Native、Al-Copilot等概念各展所长,或基于自身业务引入大模型巩固和强化竞争优势,或针对新的方向进行细分市场探索尝试创造新的商业模式;在场景应用层面,越来越多的“大模型目标用户”尝试整合私域数据,结合自身的战略布局,探索大模型技术的赋能方法,提升企业运营、生产制造、能力营销等方面的效率、质量。能力被认可和推广的一项重要前提,是合理、可行的能力评估。通用大模型层面,目前评估以“榜单”为主要的体现形态,例如 MMLU、CEval、SuperCLUE、GSM8K、Humaneval等,在不同榜单下各模型排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,且存在无意(例如训练数据集被污染)、恶意(例如主动将测试数据集纳入训练/微调过程)的“刷榜"现象。领域大模型层面,和通用大模型的能力评估现状相比,存在的问题更多,例如难以组织有效的领域测试数据集、使得大模型领域能力无从测起,没有系统的领域大模型生成和效果的测试方法、导致测试效果难被取信。目前国内已经有一些行业组织正在开展领域大模型相关的行标、国标建设。场景应用层些新的问题,例如模型生产和推理平台对企业既有基础设施的影响,模型和现场数据、系统之间的协同,模型在复杂使用环境下的安全保障等。
随着国防智能化建设的深入,军内很多机构都对大模型能力产生了浓厚的兴趣,军事大模型应用场景也非常丰富,如军事情报、指挥控制、智能武器、无人系统等领域。军事大模型作为一类特殊的领域大模型,也有一些自身的能力评估特点。
军事领域的数据的机密性和敏感性众所周知。一方面,基础大模型很难在预训练/微调阶段注入足够的军事知识,军事认知必须在领域大模型构建过程中形成,使得领域大模型的军事常识能力评估显得愈发重要;另一方面,常识能力评估所需的数据集,也因为军事数据的特点,领域大模型的评测数据集构建更为困难,因此更难展开有效的领域大模型评估工作。
军事领域高对抗性的特点,使得军事大模型和常规领域大模型相比面临着更为严峻的安全挑战。例如,通用大模型面临的偏见,在军事领域可能升级为“认知战”手段、对方刻意对大模型能力进行干扰;又例如传统人工智能模型面临的对抗攻击、内容伪造、数据泄露问题在军事大模型应用场景中需要得到更多的评估。