刘思毅宝宝总已持续日更 1947 天!
陪伴中国年轻创业者一起赚钱!一起成长!
这是刘思毅宝宝总的 AI 专业访谈,这次访谈的嘉宾是是国内
AI 创业者顶尖前沿的创业者武彬
第二期,他的公司是用人工智能来做电商营销素材的,就是帮助所有的品牌跟电商卖家来做内容,公司现在市值几十个亿了。
武彬非常牛逼,
清华本硕,计算机本科, NLP 人工智能实验室的硕士,
今天这篇文章核心探讨一个问题,刘思毅到底要投入多少钱才能完成刘思毅孪生 AI ,以及能否由此开启新的搞钱项目。
一、 AI 对于我们这种创始人、创作者来说,到底能帮助我们什么?
刘思毅:
我 10 月份去了一趟硅谷,和那些 AI 的创始人聊了,但我觉得他没有解决我的一个核心问题,我并不知道作为一个 IP ,AI 能够帮助我带来什么。
我现在最显性的需求叫做刘思毅已经生产了 6 年的短视频文字,有几百万字的资料,我想要让我的用户可以看到一个数字孪生版的 641,
但是 OpenAI 哪怕读了我几百万字的文字资料,好像没有办法对我出任何的有效帮助。
他不能吃掉这个 PDF以后就成为刘思毅,我缺了什么?
武彬
:我觉得可能还是
数据样本不够
,我之前看到一个视频说你让一个 AI 学你的东西,学完之后出来的文字都是骂人的。
刘思毅
:是真的,我找了一个国内 10 家 AI 公司,他只能学口吻。但是他要模仿一个刘思毅的思想,他学不到。
武彬:
你如果真让他学到,可能还需要更多的数据,比如某些事情是怎么想的。
刘思毅
:什么叫做缺数据?我已经有这些几百万字的数据,但是它没有办法一次性的咀嚼完成。
武彬:
可以的,那就可能是你们缺了一个专门来给他做训练的人。这个训练不是说一股脑给他一个 PDF 就叫做训练。
一般来说你要像我们这种专业人士,内部有一个东西叫做
fine q
,就是优化的意思,像 GPT,文心一言是拿海量的通用文本训练的。
他知道整个世界的这个语言什么样子的,
但是你如果到垂直行业,比如我们做电商的,你就要告诉他这个垂直电商很多数据,比如说这是一个怡宝是什么的瓶子,你要给他很多垂直的这个数据。
你要训练你的样本,你要告诉他,比如你面对特朗普上台这个事情你的一些想法,你给他一个文字,你告诉他你这个文字里面是怎么一步一步的思考的。
如果只给他一个长的 PDF,是无效的。
刘思毅:
请问我告诉他这个告诉本身是怎么执行的?
武彬
:就好像 GPT 的对话逻辑一样,告诉他。
一种是
完全我们这种做程序员的,我们就会给他标好的数据,比如这是猫,这是狗,这是书,这是花,
第二就是
完全用对话的逻辑,一句一句拆解,对话。
二、刘思毅有几百万字的资料,我希望它变成一个刘思毅版的 GPT,如何实现?
刘思毅:
用户可能问题是我这个情况是这样的,关于小红书,你觉得应该怎么操盘我,我就希望他能够结合我喂给他的东西,给用户一个较为刘思毅版的回答。
因此我需要做啥呢?
武彬:
第一,你把几百万字的 PDF 先拆成一段一段的。
就比如我们前面说的这个对话,就是你为什么说这句话?它是什么样的问题,导致你说这句话,比如几百万字是我的 3, 000 篇文章,每篇文章都有标题和中心一群,我可能是一篇文章,一篇文章的告诉他你写这篇文章的目的是什么?
这个文章可能是别人问你如何来操盘小红书,比如这篇文章是当今这个时代你如何看待中美竞争,你把这个标题给他,
这是你的回答,这是标题。
刘思毅
:为什么是一篇一篇带着它吃,而不是 PDF 直接混杂的给它吃?这叫数据的人肉结构化吗?
武彬
:按理来说大模型不太需要做结构化了,但是你给它结构化之后,能理解的更好。
比如说你把所有的从小学到高中的书全部背给他,中间要梳理这些逻辑很复杂。你告诉他这是语文,这是数学,这是物理,这是化学,这是物理里的电,
这是声,这是光,是运动,他就学得更好,你如果不帮他拆解,他只能像你说的模仿文风。
他就回避关键问题,他就不理解底层东西样。
刘思毅
:因此我用中文对话式可以手把手带教 3, 000 篇文章,每篇文章主题让他吃进去之后,它就变成了一个吃进 3, 000 篇文章的一个 AI。这和 QA 机器人的区别是什么?
武彬
:就是你给他的目的,这个目的叫做你来学习我的内容,以后你来模仿服务我的客户,所以我们的目的就是要
让他深度学习,举一反三。
如果不用 train 的方式,你只能让他来模仿。有一个程序员告诉他如何来 train,这个就是我们做的事。
三、如果要有一个刘思毅的开源模型,要花多少钱?
武彬
:我们之前部署服务器,不贵,大几十万,但是要标数据比较费钱。我们那个数据会更复杂,不只要学习文风,要理解什么是电商好的内容。
什么是上衣、裤子、鞋包、帽子、配饰,上衣的领型、纹理、花纹怎么样的?
应该如何包装?所以我们那个结构化的复杂程度要更多。
我们标数据又花了几百万,买服务器可能一两百万。
刘思毅
:标数据贵在哪里?工程师生产力吗。
武彬
:不是工程师。你要先来制定规则。
刘思毅
:为什么规则贵?这个成本在哪里?
武彬:
你准备一大堆的图片、一大堆的视频,让人来先告诉他这是猫,只是狗,这是上衣、裤子、鞋。
刘思毅
:为什么要高校老师来做?
武彬
:高校老师告诉这个规则。我们招了一帮兼职的人来标,
刘思毅
:高校老师贵在哪?它这个规则为什么它贵?
武彬
:因为我们不知道这个衣服的领型有什么,枪脖领、平脖领、斜方领,这个扫地机器人的逻辑是什么?你要结合电商,结合售卖,要把它结构化成一段段。
这是业务侧语言。
刘思毅
:但高校老师为什么知道?
武彬
:专家的脑子的结构化,这是一个,第二步就找了很多这个兼职的,来标数据,就在一看完一张图标是,傻瓜标记的逻辑,但这个要标非常多,要标几百万。
刘思毅
:那就是真正的劳动密集型工作了。
四、孪生版的刘思毅,第一步要解决的是选择什么样的开源模型是吗?
武彬
:你如果想私有化部署,就肯定是开源模型。
刘思毅
:如果不想私有化部署,我能用 GPT 的这种它的接口吗。
武彬
:你就用接口,它现在也开放微调的方法。
刘思毅
:因此接口之后的第二步是什么?
武彬
:接口之后你就
把
结构化的参数怼给他。
刘思毅
:结构化的参数可能是对话,可能就是代码语言,对吗。
武彬
:这种的话你基本都是对话。
刘思毅
:真的是对话才足够结构化咀嚼,对吗啊?因为我是文字,对吧?我是文章。
武彬
:文章的话它更多就容易学出来你的文风。
刘思毅
:因此落地一个问题,我写了朋友圈写了 50 万字,我文章有 5, 000 文章, 5, 000 篇文章,我此时此刻让他知道刘思毅的这些东西,我应该怎么做?
一篇文章,一篇文章的告诉他这个标题是什么?
解决什么问题?这是文章来概括学习
,一篇文章,一篇文章这样做,是吗?
武彬
:对。
刘思毅
:坦诚讲,这个成本也没有那么高,因为我可以找兼职,这是人肉的逻辑,最后你他不需要脑子,还需要为什么?
武彬
:比如说你最后还可以再来做优化,比如你给他怼,给他 300 篇,你还有 200 篇没怼,你怼给他 300 篇之后,你让他在固定的问题上给你一个答复。
比如说今天电商更新了一个新的规则,怎么看?他回复完之后你可以再告诉这个不是我的观点,我会觉得哪做的不对。这样不断的修正,就像你教一个孩子一样,你给他修正。
刘思毅
:我突然觉得 AI 好有价值,但是 AI 好费钱。
五、刘思毅 AI 到底可以对于群响和对于刘思毅有多大的商用价值?
刘思毅:
你们的生意是为电商提供什么电商内容的?
武彬
:电商 AI 的高效化生产,电商营销素材图片对视频。我们觉得模型数据是我们的核心资产,所以我们肯定是不会用开源,
刘思毅
:我觉得很刚需啊
武彬
老师,这个真的很刚需,因为电商非常重复劳动,电商内容又能直接产生经济价值,就是因为他这个很牛逼,内容做得好是能带来GMV。
就相当于是他把人力成本全部付给你做 AI 工具了,而人力成本本身和 AI 工具本身如果相差不大,并且你又可以真的非常稳定精准 7 × 24 小时随时 stand by 的话,确实会有很多人买单。
武彬
:我们的成本是基本上他人力成本的 1/ 5。我们能测算出来就是人做图或者人做视频成本大概是200,我们就大概20~30。我们不是按单条,我们是给他打包一个套餐素材。
刘思
毅
:本身的质量差距有多大?
武彬