论文题目:
OceanGPT
: A Large Language Model for Ocean Science Tasks
本文作者:
毕祯(浙江大学)、张宁豫(浙江大学)、薛逸达(浙江大学)、欧翌昕(浙江大学)、冀大雄(浙江大学)、郑国轴(浙江大学)、陈华钧(浙江大学)
发表会议:
ACL2024 (CCF A)
论文链接:
https://arxiv.org/abs/2310.02031
代码链接:
https://huggingface.co/zjunlp/OceanGPT-14B-v0.1
项目链接:
http://oceangpt.zjukg.cn/
数据链接:
https://huggingface.co/datasets/zjunlp/OceanInstruct
转载自浙江大学知识引擎实验室 ZJUKG
我们在去年发布了OceanGPT(沧渊大模型)并初步探索了其在海洋科学问答、内容生成和水下具身智能能力,
该工作近期被自然语言处理顶级会议ACL2024(CCF-A类会议)录用为主会论文
。近期我们对OceanGPT进行了进一步的优化和升级,并将其中的部分能力以开源形式进行了更新发布,主要能力升级包括:
-
在OceanGPT-7b基础上升级发布
OceanGPT-14B/2B两个新版本
;
-
新增基于Qwen2的中文基座的OceanGPT,提供支持
中英文双语能力;
-
开源了20K规模的
海洋大模型指令数据集OceanInstruct;
-
新训练OceanGPT-V多模态版本(提供在线演示,即将开源),支持
多模态海洋数据(声呐、科学图片等)
处理能力。
海洋覆盖了约 71% 的地球表面,它在全球的气候调节、天气模式、生物多样性以及人类的经济发展都扮演着至关重要的角色。海洋科学的研究关注于海洋的自然特性、其变化规律以及与海洋资源开发和利用相关的理论、方法与应用。因此,本文提出了为海洋领域打造的大型语言模型OceanGPT,它能够处理面向海洋科学的问答等生成任务。另外本文还尝试验证大模型模拟操控水下机器人的潜力,初步探索了大模型驱动的水下具身智能的可能实现方法。
二、
OceanGPT的训练(OceanGPT-7B)
数据质量是训练海洋领域大模型的关键。
为训练OceanGPT,我们收集了海洋科学语料,其包含多个子领域。由于每个子领域和主题都有独特的特征和模式,我们提出了一种名为 DoInstruct的领域指令生成框架,采用
多智能体
协作的方式来生成海洋科学的指令微调训练数据。这种方式即可以确保数据的专业性和准确性,也能够实现高效并行的数据生成性能。DoInstruct框架利用智能体(如 GPT-3.5-turbo)作为每个海洋主题的专家,主要包含三大类角色:
-
演化式的数据合成智能体:
具体来说,智能体主要采取两种协同式的策略,一是补充拓展种子样本的背景知识,二是对种子数据包含的知识点进行细化分析增强和改进;
-
经过微调的文献阅读智能体:
首先对大模型进行微调得到专门用于文献抽取的智能体模型,从而能够使用智能体从海量海洋语料库中提取高质量文本;
-
确保数据质量的审核智能体:
在这里预定义了特定海洋科学相关的句法和语义规则,通过提示的方式构建该智能体,最后能够过滤数据来确保生成数据的质量。
基于上述得到的指令数据,我们基于开源模型llama2-7b-chat训练得到OceanGPT-7B,其中部分的指令数据已开源到OceanInstructions
从实验结果可以看到,本文研究的模型在绝大多数任务上优于基线语言模型。与此作为对比,现有的开源大型语言模型并不能够很好地处理一些需要专业知识的海洋任务。另外我们设计的多智能体数据生成框架能够有效地在海洋领域的各个子领域充当专家,这表明OceanGPT在各种海洋领域是更好的专家模型。
我们进一步在微调过程融合了一些符号化的机器人控制指令和代码,然后在模拟器中初步验证OceanGPT对于海底机器人控制(比如轨迹规划)的能力,可以为大模型驱动的水下具身智能的实现提供参考。
三、
新升级能力(OceanGPT-14B/2B)
在前述工作基础之上,近期我们对OceanGPT进行了多方面的升级,包括:
1.
对
模型基座(基于Qwen和MiniCPM)进行了更新优化并开源发布
OceanGPT-14B/7B/2B
三个模型,
其中2B模型可支持
端侧或边缘侧硬件设备部署
,以便更好适配海洋环境下端侧或边缘侧的低计算能力设备。
2.
基于Qwen 2.0基座模型,提升模型的
中英双语能力。
3.
对海洋指令数据集进行了扩展,覆盖更为广泛海洋领域知识,并基于部分指令数据集
开源了海洋指令数据集OceanInstruct(20K)
4.
新训练
OceanGPT-V多模态版本(提供在线演示,即将开源)
,支持
多模态海洋数据(声呐、科学图片等)
处理能力
。