12 月 28 日,「AI 为伍 重启征程」2024 OSC 源创会年终盛典在珠海嘉远世纪酒店圆满落下帷幕。本次活动由开源中国、Gitee 主办,华为联合主办,珠海市香洲区科技和工业信息化局、广东省科学院珠海产业技术研究院、珠海市软件行业协会、珠海市科技发展促进会、澳门亚太 IT 协会提供支持。
本次活动秉承 “自由、开放、分享” 的宗旨,自开启报名后就受到了全国各地开发者和 IT 企业的关注,吸引到行业内的顶尖专家、技术领袖和一线开发者积极报名,现场观众达 400 余人,会场座无虚席,参会人数再创新高。
2024 年,源创会走过不同城市,举办了 8 场城市沙龙,1 场年终盛典,汇聚上千位开发者、近 70 位优秀讲师。与此同时,开源中国和 Gitee AI 社区生态的发展也离不开业界专家与合作伙伴的支持。为了感谢各位合作伙伴的支持与贡献,本次大会组委会特别颁发“源创会 2024 年度技术领航者”、“开源中国 2024 年度突出贡献专家”、“Gitee AI 年度最佳合作伙伴” 三大奖项。
大会现场巧妙设置了一系列精彩纷呈、趣味盎然的活动,如“可乐滚滚乐”、“展台互动集章”、“寻找神秘人”等小游戏,让参会者门在繁忙的学习交流之余,也能尽情享受活动带来的欢乐时光。
大会精彩内容集锦
聚焦开源与大模型技术的融合与发展
上午,在「AI 为伍 开源同行」的主论坛现场,华为资深开源工程师李佳伟发表了题为《主流开源软件原生支持昇腾:大模型训练与推理的轻松之选》的精彩演讲,详细阐述了华为昇腾在对主流开源软件,诸如 vLLM 、ONNXRuntime 、ollama 、llama.cpp 等进行原生支持方面所取得的显著进展以及当前的实际状况,旨在为广大开发者搭建起更为便捷、高效的大模型训练与推理平台,助力其在 AI 领域的探索与创新之路更加顺畅无阻。
李佳伟指出,在当今时代的科技浪潮中,AI 软件领域正呈现出爆发式增长的强劲态势,不断突破传统边界,实现着颠覆性的成长与跨越,同时,代码规模朝着更加精简高效的方向发展,已成为不可逆转的趋势。面对智能计算领域开源软件如雨后春笋般蓬勃涌现的局面,华为昇腾秉持着开放、包容的态度,诚挚欢迎各路贤才精英踊跃加入,共同挖掘技术潜力,拓展创新边界,携手推动 AI 技术迈向新的高峰,为全球科技产业的发展贡献力量,共绘智能未来的宏伟蓝图。
红帽大中华区首席架构师张家驹带来题为《大模型技术创新与合作 —— 在人工智能领域拥抱开源价值观》的分享。步入 AI 时代,开源概念亦需顺势革新,秉持 100% 开源价值观成为必然要求,这意味着不仅代码要开源、权重需开放,训练数据以及训练方法等方面同样要实现开源共享。基于这样的理念,红帽精心发起了 InstructLab 项目。InstructLab 志在打造一个开放包容的社区平台,让每一个人都能拥有平等参与大模型开发的契机,使 AI 真正化作普惠大众的技术力量。
在《大模型在研发安全的应用实践》的分享中,腾讯代码安全负责人张栋强调,代码安全已成为大企业推进安全左移的核心点。传统代码安全方案在效率与能力上存在明显瓶颈,腾讯混元大模型通过其卓越的语义理解与泛化能力,在存量场景中突破传统能力上限,有效提升高危风险检出的准确率(质)、检出数(量)和修复效率。更重要的是在增量场景中,大模型为逻辑类漏洞和自动审计提供了落地的可能,使传统技术较难解决的复杂问题得以推进,实现从 “提质提量” 到 “扩边增效”,推动代码安全实现质的突破与应用领域的拓展。
蚂蚁集团高级算法专家余航则是分享了 CodeFuse 基座模型。CodeFuse 源于蚂蚁自身的开发场景及代码库沉淀,基于海量高质量代码数据和代码领域特色词表,以及多任务微调技术 MFT ,已从单环节智能化演进到企业级端到端的研发智能体探索,并开源了多个自研和微调的代码大模型,总下载量近 200 万。
余航详细介绍了,CodeFuse 旗下极具特色的仓库级代码图大模型 CGM,在行业权威的 SWE-Bench Lite 榜单上表现卓越,成功解决了 41.67% 的问题,在竞争激烈的 SWE-Bench Lite 开源榜单中脱颖而出,荣登榜首之位。这一成绩的取得,不仅彰显了 CodeFuse 模型的高超性能与精准能力,更为整个代码大模型领域树立了新的标杆,为后续的研究与应用提供了极具价值的参考与借鉴,有望引领行业朝着更加高效、智能的方向发展。
Vivo 高级系统架构专家徐海波在题为《 vivo 蓝河操作系统的 AI 技术探索与前沿实践》的分享。他介绍,BlueOS 蓝河操作系统是 vivo 自研面向通用人工智能时代的智能操作系统,具备更智慧的 AI 交互、更流畅的性能、更安全的内核及框架等特点。
聚焦 GenAI 开发中的关键技术
在下午「GenAI 开发关键技术」主论坛中,英飞流创始人兼 CEO 张颖峰发表题为《新一代企业级多模态 RAG 引擎》的演讲。张颖峰表示,随着 LLM 多模态能力的增强,RAG 也需要步入多模态时代,它并不限于对日常图片,音视频的检索增强,还应该涵盖当下占据大部分的非结构化文档,发掘出这些数据的商业价值。
Gitee 私有云产品总监林靖靖发表《数据智能跟踪体系的构建》分享,深入阐述了 Gitee DevOps 如何打破信息孤岛,形成研发管理全域智能的产品组合,结合企业过程资产库和研发过程资产信息库,基于 AI 大模型 multiagents 和 RAG 技术,实现企业组织研发过程智能化、体系化,加速体系成熟,构筑智能化软件工厂。
文心快码 Baidu Comate 架构师徐晓强发布题为《文心快码在代码生成场景下的知识丰富探索与实践》的演讲。为了提供给开发者更加准确的生成结果,文心快码这两年不断丰富上下文的探索,在代码续写场景下做 “准确度” 和 “速度” 的平衡。也探索了基于 Agent 的代码改写能力。随着模型能力的提升,文心快码已经能够在更多场景和更模糊的指令下完成更困难的任务。
IDEA 基础软件中心高级工程师费浩祥发布题为《MoonBit 和 AI 的协同设计》的演讲。会上,费浩祥为大家介绍了 MoonBit 是如何在编程语言和工具链的上针对 AI 代码生成进行协同设计,并介绍这些设计是如何改善模型的性能,从而帮助 MoonBit 用户完成常见的编码任务。
华为开源生态专家杨滔发表《大模型时代的昇腾 AI 》主题分享。杨滔指出,人工智能时代,昇腾基础软硬件平台提供从底层算力、算子、框架、套件等层面对人工智能从模型开放到应用的全流程支持。
在人工智能框架方面,昇思 MindSpore 持续创新,通过易用性提示,对大模型训推的支持,拥抱 AI 时代的创新,降低用户开发和应用成本。
AI 应用使能套件作为昇腾生态领域的关键窗口,专注于赋予开发者围绕模型的全方位的能力,涵盖模型训练与推理一体的高效流程,有力地降低了昇腾硬件开发的技术门槛。
矩阵起源研发 VP 赵晨阳在题为《如何利用多模态模型构建适用于 LLM 搜索的数据》的分享中表示,智能体表现好坏依赖于数据,也进一步应证了高质量 “知识” 对于 LMM 的重要性。随后,赵晨阳进一步阐述在多模态数据融合阶段,更是需要创新性的算法和模型架构,来打破不同模态之间的语义鸿沟,实现数据的有机整合和协同表达。
Java 开发者应该如何构建 Agent?会上,Spring AI Alibaba 项目负责人刘军则向大家介绍了基于百炼模型服务的 AI 应用开发框架 “Spring AI Alibaba” 及其开发框架的架构与基本使用。Spring AI Alibaba 开源项目基于 Spring AI 构建,是阿里云通义系列模型及服务在 Java AI 应用开发领域的最佳实践,提供高层次的 AI API 抽象与云原生基础设施集成方案,可以帮助开发者快速构建 AI 应用。
Alluxio 首席架构师傅正佳带来题为《构建大模型时代的高性能 AI 数据底座》的分享。傅正佳介绍,Alluxio 是一个位于数据存储和计算框架之间,提供数据抽象、统一访问、分布式缓存加速、数据亲和性调度等功能的开源数据编排平台。Alluxio 通过帮助企业构建大模型时代的高性能 AI 数据底座以应对 I/O 挑战,提升 AI 算力的效率与性能,被广泛应用于模型训练与推理、自动驾驶、AI 制药、金融量化以及视频渲染等场景。
聚焦昇腾 AI 大模型与应用开发
在下午的「昇腾 AI 大模型与应用开发」分论坛上,华为昇思生态总监王神迪博士带来题为《昇思 MindSpore AI 框架使能大模型原生创新》的分享。昇思 MindSpore 作为大模型时代 AI 框架的新选择,作为中国乃至世界的框架 “新势力”,引领技术创新,加速全面智能化时代到。目前,社区下载量 1000 万 +,社区核心贡献者 3.5 万,认证企业数超 1500+ 家。
华为主任工程师张俊怡发表了题为《昇腾大模型 MindSpeed 训练加速库系列介绍》的演讲。张俊怡围绕 MindSpeed 向大家介绍训练加速库系列,深入阐释了其核心技术架构与独特优势。MindSpeed 训练加速库旨在应对当前人工智能领域对高效、快速训练日益增长的需求,通过优化算法、改进内存管理以及充分利用硬件并行计算能力等手段,显著提升了模型训练的速度与效率。
华为昇腾生态套件项目架构师潘邵武带来题为《昇腾生态开发套件,模型训推新体验》的分享。为提升昇腾平台的模型开发效率,加速开发者 AI 应用创新,华为计算产品线牵头开发了 AI 应用使能套件,已适配 LLaMa-Factory 、Stable Diffusion WebUI 等开源生态套件,覆盖了微调训练、推理部署、模型评测等模型开发应用全流程。会上,潘邵武围绕昇腾生态,向大家展示了 AI 应用使能套件生态全景,以及 OpenI 启智社区所开展的各类活动,希望与广大开发者共建昇腾 AI 生态。
迅龙软件系统开发工程师徐洋帆为大家带来题为《香橙派:开源 + AI ,探索无限可能》的分享。徐洋帆介绍,香橙派与华为昇腾目前联合研发的高算力人工智能产品,包括 OrangePi Alpro、OrangePi Al Studio 等,具有强大的计算能力和高效的运算速度,能满足市场上各行各业及个人开发者对 AI 推理应用开发的需求,能让企业以更低的门槛尝试 A,推动企业的智能化升级。
魔乐社区负责人、天翼云专家李宝龙为大家带来题为《与魔乐一起,繁荣国产 AI 生态》的分享。魔乐社区(Modelers)是全新的人工智能社区,拥有包容的工具链体系,已托管和展示昇思、DeepSpeed、AI 应用使能套件等框架或平台。他还表示,魔乐社区坚持走开源、公益的路线,免费、长期支撑应用创新。值得一提的是,魔乐社区对用户制定了成长激励计划,鼓励用户在不同领域深入学习和实践,从而实现个人和专业上的成长与发展。
开源中国 Gitee AI 负责人彭博则为大家分享《 Gitee AI 如何在国产算力上构建 Serverless API 及其应用场景》。彭博指出,模型引擎和应用引擎已经暴露出一些问题,如模型引擎体验失败率高,应用引擎要编写跟 GPU 推理相关的代码门槛高等等。因此 Gitee AI 推出 Serverless API,直接调用 API,无须关心底层的 GPU 推理代码;同时兼容 OpenAl 接口,门槛低;体验稳定,部署简单;按次付费,价格实惠。
落到具体,情感机器(北京)科技有限公司 AI 生态负责人陈少宏则是为大家带来题为《 SwanLab+openMind 打造国产 AI 开发者工具链》的分享。他介绍,情感机器(北京)科技有限公司是一家专注于人工智能和机器学习底层工具研发的高科技企业。旗下 SwanLab 是一款专为 AI 训练设计的过程记录工具,帮助开发者发掘出最具潜力的 AI 模型,将与 AI 应用使能套件共同打造全球领先的人工智能研发工具链。
在本次 2024 OSC 源创会年终盛典的推进过程中,我们心怀无尽感激,向一路同行的赞助商、支持单位、合作伙伴们致以最诚挚的鸣谢。
合作伙伴
我们明年源创会再见!