专栏名称: AI云原生智能算力架构
分享最新一线AI大模型、云原生、智能算力架构技术
目录
相关文章推荐
51好读  ›  专栏  ›  AI云原生智能算力架构

万亿赛道!可信开源大模型解决方案第一篇 2024

AI云原生智能算力架构  · 公众号  ·  · 2024-11-04 07:15

正文

请到「今天看啥」查看全文



1. 可信开源大模型产业
1.1 中国信通院可信开源大模型产业推进方阵成立
2023 年 9 月 21 日,由中国信息通信研究院和中国通信标准化协会联合主办的“2023 OSCAR 开源产业大会”在北京举行。
会上,中国信通院联合多家企业、高校和科研机构共同成 立中国信通院可信开源大模型产业推进方阵(TWOS-LM)。
TWOS 下设的可信开源大模型产业推进方阵旨在聚集开源大模型相关企业和人才,探讨开 源大模型的治理、商业化模式等热点问题,并提供大模型生态赋能。
中国信通院可信开源大模型产业推进方阵第一批成员名单
2. 可信开源大模型案例集
为进一步促进大模型的开源和合作,引导开源大模型产业健康规范发展,中国信通院开启《可信开源大模型案例汇编(第一期)》案例征集计划。
案例旨在促进大中小企业融通,扩展开源人工智能大模型、行业大模型服务千行百业的应用场景,提升企业应用开源大模型实现专精特新发展。
后续计划
2.1 大模型案例
2.1.1 ChatGLM 大模型
开源大模型概述
2023智谱AI开源地图

自 2019 年成立以来,智谱 AI 致力于大模型技术的研究和推广工作。
在 2023 年,我们推出并开源 了多款模型,它们具有不同的能力,开发者可以对这些模型进行使用和定制。
Token 数代表了模型支持的总 Token 数量,包括了 输入 + 输出的所有 token。
同时,Token 数不代表用户输入字符的数量。在我们的模型中,一个 token 约等于 1.8 个汉字。
Chat 模型
下表为智谱 AI 开源的语言模型列表


多模态模型
智谱 AI 致力于推动多模态模型的发展,因此,我们推出了具有视觉和语言双模态的模型。
代码模型
其他模型
我们还开源了以下模型,以便用户使用我们多元化的产品。
开源大模型发布时间历程
开源大模型信息
开源大模型的特点
ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型。
ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上, ChatGLM3-6B 引入了如下特性:
1. 更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、 更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示, ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。
2. 更完整的功能支持: ChatGLM3-6B 采用了全新设计的 Prompt 格式,除正常的多轮对话外。同 时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 任务等复杂场景。
3. 更全面的开源序列: 除了对话模型 ChatGLM3-6B 外,还开源了基础模型 ChatGLM3-6B- Base、长文本对话模型 ChatGLM3-6B-32K。以上所有权重对学术研究完全开放,在填写问卷进行登记 后亦允许免费商业使用。
2.1.2 通义千问大模型
开源大模型概述
  • 模型名称: Qwen ( 通义千问)系列,其中包括大语言模型 Qwen ,大视觉语言模型 Qwen-VL, 大语音模型 Qwen-Audio

  • 所属机构名称: 阿里巴巴集团

  • 支持语言种类: 本系列模型支持多种语言,但以中英为主,经测试,模型在法德意西等欧洲语言, 日韩等亚洲语言表现良好。

  • 上线配套工具包括: API 服务 DashScope,网页端服务通义千问,APP 服务通义千问,插件包括 VSCode 插件通义灵码

  • 类别: 通用,场景不限

开源大模型发布时间历程
  • Qwen-7B: 8 月发布,9 月更新 v1.1

  • Qwen-VL: 8 月发布,9 月更新 v1.1

  • Qwen-14B: 9 月发布

  • Qwen-72B: 计划 11 月底发布

  • Qwen-Audio: 计划 11 月底发布

开源大模型落地案例及开源商业化进程
Qwen 自开源以来,广泛在阿里巴巴集团内外落地,帮助集团内外上百个业务落地,支持了淘宝、 钉钉等集团内业务,也在浙江大学、有鹿机器人、央视网等客户的业务场景实线落地应用(为保客户隐私, 许多客户名称暂不透露)。典型案例包括对钉钉的魔法棒产品支持,可以实线问答、翻译、摘要等能力, 以及浙江大学使用 Qwen 实现教育领域专属大模型智海三乐,以及有鹿机器人使用 Qwen 落地于清洁机 器人等。
开源大模型信息


开源大模型数据集来源
部分数据集为公开数据集,其中包括 red pajama,pile,悟道,万卷等,其余为私有数据集,无法公开。
开源大模型的特点
Qwen 在多项基础能力测评领先同规模甚至更大规模的其他语言模型,并且中文能力远超诸如 Llama 系列的海外模型,同时 Qwen 具备领先的工具调用及 Agent 能力。
大模型幻觉问题解决方案
当前主要从三个方面入手解决幻觉问题:1. 检测数据中虚假信息,提升数据质量;2. 扩大模型规模 并增大预训练数据量,模型能力的提升能实现幻觉水平的降低;3. 结合搜索增强以及知识库等方法,提 升生成信息的准确性。
开源大模型安全与合规治理
1. 优化预训练数据质量,使用规则加模型的方法过滤大量不良信息;2. 大量标注并审核安全与合规 相关的微调数据,让模型学习正确的价值观;3. 训练基于安全和合规的奖励模型,以提升生成模型的安 全水位。
开源大模型未来发展规划
未来计划包括多个方面:
1. 坚持模型规模和数据规模的提升,不断提升基础模型的智能水平;
2. 打 造结合大模型的 AI 系统,让 AI 具备听说看等基础能力,并实现和真实世界的交互;
3. 夯实大模型基础服务, 并打造行业应用大模型。

点击直接跳转阅读







请到「今天看啥」查看全文