专栏名称: 数字时氪
36氪旗下官方账号。记录中国产业故事,推动全球数智发展。
51好读  ›  专栏  ›  数字时氪

对话李志飞:大模型的关键在于如何把大模型用起来 | 年度AI对话

数字时氪  · 公众号  ·  · 2023-04-21 22:00

正文

李志飞告诉我们为什么对大模型的想法发生了变化。


| 杨俊

编辑 | 石亚琼、杨轩

封面来源 企业官方
掌握了人工智能就掌握了新时代的生产力密码。
在ChatGPT爆火的当下,大模型火遍全球,中国产业也激发了对人工智能应用的新热情。因此,这个时间点,36氪数字时氪团队正式启动《年度AI对话》专栏,希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨,通过一系列报道,还原AI新的技术能力与应用潜力。
本期我们邀请到了出门问问CEO李志飞。
李志飞是懂行的。作为出门问问的创始人,也是前Google总部科学家,自然语言处理及人工智能专家,他既懂语音交互和软硬件的结合,同时也看得懂论文,早在2020年,他就联络过几个城市的政府,想拿到资助大模型科研的基金。
在这轮ChatGPT热潮中,他经历过半夜睡不着,要爬起来查看“昨晚硅谷又发生了什么AI大事?”他也热情地表示过要“All-in”AI大模型。他甚至算过很清楚的帐,为什么大模型的入场资金门槛在5000万美元。
但现在,他的想法又发生了变化:大模型的关键在于如何把大模型用起来。
就在昨天,出门问问在北京举办主题为“AGI·降临”的2023 AIGC战略发布会。出门问问宣布内测探索大模型「序列猴子」,并提出CoPilot将无处不在。
而发布会前几周的采访中,李志飞详细而坦诚地对36氪解释了几轮想法变化的关键逻辑,也分享了他对这轮AI技术进步的判断和洞察。
希望他的思考,能对业内各位有所启发。
以下内容为采访原文,经数字时氪编辑整理:

复盘出门问问做大模型始末,当下垂直化的大模型更有机会
在此前的一些采访中,李志飞就对大模型饱含热情,要All in大模型。经过几个月之后,李志飞产生了一些观念上的改变。这次他和我们聊了聊,他对当下大模型领域的看法以及他想怎么做大模型。
数字时氪:最初出门问问在大模型上有什么探索,又遇到了哪些问题?
李志飞: 2020年8月份的时候,我们就找了几十个工程师,开始训练6个亿的模型,我们在这期间一直在做数据、做训练。但是到21年4-5月份的时候,就做不下去了。原因是几个方面。
第一我们的模型能力确实没有那么强,现在大家都知道,模型达到一定的规模,才有各种各样的比较神奇的能力。当时我最关心的是模型可以举一反三,做多任务,比如训练中没有涉及到这个任务,但测试的时候我给出的2个例子,模型就能完成这种任务。这是最让人觉得神奇的地方,其实这就是模型的通用能力。但是当时我们的模型能力比较弱,所以也在想能不能花更多钱买更多算力去做更大的模型,但疫情确实延缓了我们的进程。
当时我们做了七、八个月以后,我觉得这就是一个科研工作,没有商业化的空间。当时主要是不知道能不能做出来,要做出来就需要花更多的算力,花更多的钱。另外即便做出来了,也不知道反响如何。因为OpenAI做出来的GPT-3也没有在大众中形成很强的认知。
但在去年9月份的时候,我看到了Jasper。因为当时Midjourney等AI产品火起来了,AI受到大量关注。有人开始讨论Jasper的表现。因此,我才觉得这个是可实现的,而且我看到了它的产品。因为之前我也在思考,这种产品能做什么。最初好像海外也没有开发出更大的功能,最多可以帮人写文案。但是直到看到它的产品的那一刻我明白了原来还可以这样做。它的商业模式是建立在美国人需要写邮件这个场景上。如果我在中国也做同样的东西,商业化前景不一定会很好,因为中国没有邮件的习惯。而且Jasper的创始人在营销方面很有研究。所以综合来看,去年 9 月份我再一次警醒,我们不想简单的调用OpenAI的接口,所以我又开始专注于大模型。
首先在技术上是没问题的,GPT-3就证明了其在文案上面的能力。其次,我觉得Jasper证明了把 GPT-3包装成产品是可行的,而且商业化路径也能跑通,所以去年9月份,我们下定决心继续做大模型。
虽然我觉得GPT-3在2020年6月份出现的时候,确实不太一样,证明了通用的能力,但是我没能想到发展的这么快,ChatGPT出现的时候已经比GPT-3提升了几个数量级。这是完全没有想到的。
数字时氪:最近行业变化对出门问问决策有什么影响?
李志飞: 最开始我们想的是先学OpenAI,做通用大模型,因为当时觉得开源不太可能且国内做通用大模型的不会很多,这是我刚从美国回来的判断。
但2个星期以后,一切都变了。很多BAT级别的CEO以及中小企业,科技人才都要出来做大模型,并且开源在一个月后也出来了。这种情况下,国内的供给要比我想的多很多,做大模型的门槛变低了,但是做类似OpenAI研发的通用大模型的门槛却变高了。所以我放弃了想单独成立公司做大模型这件事情。
还有一个因素是我觉得中国其实不可能有适合OpenAI式的公司的土壤,因为我跟很多VC聊,大家永远在问怎么竞争,怎么商业化、怎么把钱赚回来?我觉得在这样的情况下基本上是很难的。
我也意识到了中国的互联网巨头在这上面一定很激进。大模型的创业者如果还在单独研究怎么做大模型,一定会在进度上变得非常被动。而且如果只做大模型又没有应用场景,又没有积累。我觉得接下来很稀缺的能力就是怎么能把模型、产品跟商业化形成闭环,以前我可能觉得可以2年以后再思考这个问题,但现在竞争这么白热化,我觉得现在就要开始琢磨谁能第一个跑出来,还是要有很强的先发优势的。所以我现在是主要带着出门问问的一些人在做这方面的事。
数字时氪:目前没有很多钱进来,你现在准备做什么?
李志飞: 首先就是市场上没有真正太多做大模型的人,我也面试了一些素质非常好的人,他们对大模型是完全无感的。我们是有一批钻研大模型的人,因为从2020 年的时候我们就天天在琢磨,所以对我们来说就是把更多的力量做投入。
数字时氪:做大模型需要多少钱?饭桌上的5000万美金成本是怎么算出来?现在5000万美元还够不够?
李志飞: 这个东西不是随便瞎掰的,因为在吃饭之前的半个月我就在美国跟很多朋友聊过。如果中国要做一个和ChatGPT差不多的大模型,可能门票就是 5000 万美金,这里面2000 万美金买算力,2000 万美金买人才,1000 万美金做数据,基本上在12—16个月时间理可以从0到1做出一个大模型,基本上就是这个过程。
我通过过去几个月跟别人聊过以后,我自己觉得不是很靠谱。我觉得现在5000万美金也可以做,1000万美金也可以做,有很多不同的做法可以做大模型。因为当时从0开始做一个175亿参数规模的大模型,而且能力是和ChatGPT一样广泛、通用的大模型,确实是需要5000万美金。
但现在,很多开源都出来了,比如Meta的开源模型LLaMA,这改变了我最初的判断,另一方面因为大公司之间的竞争,我觉得Google在开源这件事上一定会跟进的。我就觉得开源之后有了很多做大模型的机会。
但同时我也觉得在类似电商、教育、医疗、娱乐等近期比较火热的垂直领域做大模型的竞争肯定会非常激烈,因为这就是中国特色。我去年去过两次美国, 我的强烈感觉是中国创业的竞争程度是美国的 10 倍。因为中国的创业者可能是美国的两倍,但是中国的客单价可能是美国的1/ 5,所以最后就是10倍的关系。
之前我跟硅谷的一个华人团队的投资者聊天。聊完之后他说: “李志飞,你到底怎么了?我们聊了一个多小时,你聊的所有的东西都是竞争啊。” 就真的是这样。
数字时氪:接下来的方向是垂直领域的应用么?
李志飞: 一方面, 我们自己就是做创作者的工具,同时,我也会找一些合作伙伴在垂直方向上进行合作,现在最核心的是要搞清楚垂直基础的大模型到底要具备什么样的基本素质。只有具备了最基本的素质,才能在垂直方向上做的更好。
在做垂直化的路上,所有人都要琢磨到底需要什么样的底座,很显然如果能达到GPT3.5的能力,再基于自己的数据去做一些垂直化的工具,我觉得基本上应该是可以落地的。
数字时氪:你觉得核心竞争力是什么?
李志飞: 我觉得这个东西说的有点“玄”,但是我越来越觉得基于信念驱动的竞争才是唯一能跑下去的。我觉得最近我在缓解自己的压力或者焦虑感,因为确实很多人都觉得这是我人生最大的机会,但反过来,我又觉得太卷了,我抓不住。所以对我来说我对这方面是真的有信念。我觉得这一波AI会彻底改变每一个行业。






请到「今天看啥」查看全文