张骥也没有想到,5个月前还是“零基础”的他现在能够成为大模型种子班的讲师。
“这一路上全是新东西。”张骥说,他跳过了别人踩的“坑”,也必须要把自己总结的经验传授给后来者。
快速学习、相互帮助、实战育才,这是大模型种子班的氛围,更是一粒“种子”成长的动力。
今年3月,之江实验室开启了青年人才托举计划培训,以每3个月为一个周期,滚动开设大模型种子班(以下简称“种子班”),以培养大模型全栈人才。
张骥是种子班二期的学员。物理专业背景、做传统超算的张骥在大模型领域是“零基础”选手。
“一开始是听课和自己看书,学习基本理论,学习同学推荐的算法,把别人的步骤复刻出来,然后开始实操,自己搭建一个10亿参数的模型。”在指导老师和同学的帮助下,张骥快速进步。
在种子班,张骥的下班时间延迟到了每天凌晨,面对高强度的实训和接连产生的挑战,他只能牺牲掉睡眠时间,把自己完全交给大模型。
本着学点东西的想法加入种子班,在深入了解并开始从事大模型相关工作之后,张骥发现,大模型有待提升的地方太多了。
“我们现在在做的领域模型要进行科学数据处理,科学数据在计算的时候讲求的是精确和定量,标准的语言模型在面对很大的数字的时候,可能加减乘除都算不对。”张骥说道。
另一个有待提升的是模型的训练效率,GPU算力投入是大模型训练成本中占比最大的部分,必须充分利用每一秒算力。
在搭建领域模型的过程中,张骥发现,与自己原来想的不同,数据吞吐能力是影响计算效能的一个关键。他打了一个比方,如果把数据比作水流,那么存储就是出水口,出水口流速太慢,GPU就会处于等待数据的状态,大量的数据等待,就会造成GPU资源的浪费。
“我们处理的科学数据是三维的,假设在一个语言模型中,1000个文本的长度就是1000,那么三维的科学模型里就是1000的三次方,是非常大的一个量。”张骥说道,“我们要做的是优化算法,提升计算效能,提高GPU卡的利用率。”
张骥和种子班同学通过优化算法,提升数据流的吞吐能力,将模型的整体效率提升了一个数量级。
中间为张骥
“大模型不是万能的,不懂大模型是万万不能的。”这是种子班所有学员都听过的一句话。现在,张骥对这句话有了更加切身的体会和理解。
模型能够帮助我们自动化地处理海量数据,提升生产效率,更有可能从数据中找到人类无法发现的东西,这是大模型的能力。更重要的是,知道大模型的能力边界在哪里,把它真正做成一个开放的工具,与各个领域的科学家合作,让他们方便地使用工具,去推动科学发现。
从二期种子班毕业之后,张骥加入实验室“科学基座模型”科研任务总体部,立即投入了新工作。
“我现在每天至少有三分之一的精力投入在数据上面。数据、模型、算力,是人工智能时代的三驾马车,首先一定要让数据顺畅地流动起来。”张骥说道。
对于科学基座模型而言,科学数据的采集、清洗是第一步,这需要投入大量的耐心,且没有太多前人经验成果可以参照。“每个领域的科学数据都有其独特性。从科学数据到模型语料是一个团队协作的过程。我们现在把数据处理流程走完一遍之后,会把自己踩过的坑、得到的结论都总结出来,形成一套流程开放给大家参考,提升整个数据处理效率。”