专栏名称: 群响刘老板

和年轻 CEO 一起成长、彼此见证，然后赚大钱。

AI 会淘汰刘思毅吗，没有的事儿。

群响刘老板 · 公众号 · · 2025-01-02 12:00

正文

刘思毅宝宝总已持续日更 1947 天！

陪伴中国年轻创业者一起赚钱！一起成长！

这是刘思毅宝宝总的 AI 专业访谈，这次访谈的嘉宾是是国内 AI 创业者顶尖前沿的创业者武彬 第二期，他的公司是用人工智能来做电商营销素材的，就是帮助所有的品牌跟电商卖家来做内容，公司现在市值几十个亿了。

武彬非常牛逼， 清华本硕，计算机本科， NLP 人工智能实验室的硕士， 今天这篇文章核心探讨一个问题，刘思毅到底要投入多少钱才能完成刘思毅孪生 AI ，以及能否由此开启新的搞钱项目。

一、 AI 对于我们这种创始人、创作者来说，到底能帮助我们什么？

刘思毅： 我 10 月份去了一趟硅谷，和那些 AI 的创始人聊了，但我觉得他没有解决我的一个核心问题，我并不知道作为一个 IP ，AI 能够帮助我带来什么。

我现在最显性的需求叫做刘思毅已经生产了 6 年的短视频文字，有几百万字的资料，我想要让我的用户可以看到一个数字孪生版的 641，

但是 OpenAI 哪怕读了我几百万字的文字资料，好像没有办法对我出任何的有效帮助。

他不能吃掉这个 PDF以后就成为刘思毅，我缺了什么？

武彬：我觉得可能还是 数据样本不够 ，我之前看到一个视频说你让一个 AI 学你的东西，学完之后出来的文字都是骂人的。

刘思毅 ：是真的，我找了一个国内 10 家 AI 公司，他只能学口吻。但是他要模仿一个刘思毅的思想，他学不到。

武彬： 你如果真让他学到，可能还需要更多的数据，比如某些事情是怎么想的。

刘思毅 ：什么叫做缺数据？我已经有这些几百万字的数据，但是它没有办法一次性的咀嚼完成。

武彬： 可以的，那就可能是你们缺了一个专门来给他做训练的人。这个训练不是说一股脑给他一个 PDF 就叫做训练。

一般来说你要像我们这种专业人士，内部有一个东西叫做 fine q ，就是优化的意思，像 GPT，文心一言是拿海量的通用文本训练的。

他知道整个世界的这个语言什么样子的， 但是你如果到垂直行业，比如我们做电商的，你就要告诉他这个垂直电商很多数据，比如说这是一个怡宝是什么的瓶子，你要给他很多垂直的这个数据。

你要训练你的样本，你要告诉他，比如你面对特朗普上台这个事情你的一些想法，你给他一个文字，你告诉他你这个文字里面是怎么一步一步的思考的。

如果只给他一个长的 PDF，是无效的。

刘思毅： 请问我告诉他这个告诉本身是怎么执行的？

武彬：就好像 GPT 的对话逻辑一样，告诉他。 一种是 完全我们这种做程序员的，我们就会给他标好的数据，比如这是猫，这是狗，这是书，这是花， 第二就是 完全用对话的逻辑，一句一句拆解，对话。

二、刘思毅有几百万字的资料，我希望它变成一个刘思毅版的 GPT，如何实现？

刘思毅： 用户可能问题是我这个情况是这样的，关于小红书，你觉得应该怎么操盘我，我就希望他能够结合我喂给他的东西，给用户一个较为刘思毅版的回答。

因此我需要做啥呢？

武彬： 第一，你把几百万字的 PDF 先拆成一段一段的。

就比如我们前面说的这个对话，就是你为什么说这句话？它是什么样的问题，导致你说这句话，比如几百万字是我的 3, 000 篇文章，每篇文章都有标题和中心一群，我可能是一篇文章，一篇文章的告诉他你写这篇文章的目的是什么？

这个文章可能是别人问你如何来操盘小红书，比如这篇文章是当今这个时代你如何看待中美竞争，你把这个标题给他， 这是你的回答，这是标题。

刘思毅 ：为什么是一篇一篇带着它吃，而不是 PDF 直接混杂的给它吃？这叫数据的人肉结构化吗？

武彬：按理来说大模型不太需要做结构化了，但是你给它结构化之后，能理解的更好。

比如说你把所有的从小学到高中的书全部背给他，中间要梳理这些逻辑很复杂。你告诉他这是语文，这是数学，这是物理，这是化学，这是物理里的电，

这是声，这是光，是运动，他就学得更好，你如果不帮他拆解，他只能像你说的模仿文风。

他就回避关键问题，他就不理解底层东西样。

刘思毅 ：因此我用中文对话式可以手把手带教 3, 000 篇文章，每篇文章主题让他吃进去之后，它就变成了一个吃进 3, 000 篇文章的一个 AI。这和 QA 机器人的区别是什么？

武彬：就是你给他的目的，这个目的叫做你来学习我的内容，以后你来模仿服务我的客户，所以我们的目的就是要 让他深度学习，举一反三。

如果不用 train 的方式，你只能让他来模仿。有一个程序员告诉他如何来 train，这个就是我们做的事。

三、如果要有一个刘思毅的开源模型，要花多少钱？

武彬：我们之前部署服务器，不贵，大几十万，但是要标数据比较费钱。我们那个数据会更复杂，不只要学习文风，要理解什么是电商好的内容。

什么是上衣、裤子、鞋包、帽子、配饰，上衣的领型、纹理、花纹怎么样的？

应该如何包装？所以我们那个结构化的复杂程度要更多。

我们标数据又花了几百万，买服务器可能一两百万。

刘思毅 ：标数据贵在哪里？工程师生产力吗。

武彬：不是工程师。你要先来制定规则。

刘思毅 ：为什么规则贵？这个成本在哪里？

武彬： 你准备一大堆的图片、一大堆的视频，让人来先告诉他这是猫，只是狗，这是上衣、裤子、鞋。

刘思毅 ：为什么要高校老师来做？

武彬：高校老师告诉这个规则。我们招了一帮兼职的人来标，

刘思毅 ：高校老师贵在哪？它这个规则为什么它贵？

武彬：因为我们不知道这个衣服的领型有什么，枪脖领、平脖领、斜方领，这个扫地机器人的逻辑是什么？你要结合电商，结合售卖，要把它结构化成一段段。 这是业务侧语言。

刘思毅 ：但高校老师为什么知道？

武彬：专家的脑子的结构化，这是一个，第二步就找了很多这个兼职的，来标数据，就在一看完一张图标是，傻瓜标记的逻辑，但这个要标非常多，要标几百万。

刘思毅 ：那就是真正的劳动密集型工作了。

四、孪生版的刘思毅，第一步要解决的是选择什么样的开源模型是吗？

武彬：你如果想私有化部署，就肯定是开源模型。

刘思毅 ：如果不想私有化部署，我能用 GPT 的这种它的接口吗。

武彬：你就用接口，它现在也开放微调的方法。

刘思毅 ：因此接口之后的第二步是什么？

武彬：接口之后你就把 结构化的参数怼给他。

刘思毅 ：结构化的参数可能是对话，可能就是代码语言，对吗。

武彬：这种的话你基本都是对话。

刘思毅 ：真的是对话才足够结构化咀嚼，对吗啊？因为我是文字，对吧？我是文章。

武彬：文章的话它更多就容易学出来你的文风。

刘思毅 ：因此落地一个问题，我写了朋友圈写了 50 万字，我文章有 5, 000 文章， 5, 000 篇文章，我此时此刻让他知道刘思毅的这些东西，我应该怎么做？

一篇文章，一篇文章的告诉他这个标题是什么？ 解决什么问题？这是文章来概括学习 ，一篇文章，一篇文章这样做，是吗？

武彬：对。

刘思毅 ：坦诚讲，这个成本也没有那么高，因为我可以找兼职，这是人肉的逻辑，最后你他不需要脑子，还需要为什么？

武彬：比如说你最后还可以再来做优化，比如你给他怼，给他 300 篇，你还有 200 篇没怼，你怼给他 300 篇之后，你让他在固定的问题上给你一个答复。

比如说今天电商更新了一个新的规则，怎么看？他回复完之后你可以再告诉这个不是我的观点，我会觉得哪做的不对。这样不断的修正，就像你教一个孩子一样，你给他修正。

刘思毅 ：我突然觉得 AI 好有价值，但是 AI 好费钱。

五、刘思毅 AI 到底可以对于群响和对于刘思毅有多大的商用价值？

刘思毅： 你们的生意是为电商提供什么电商内容的？

武彬：电商 AI 的高效化生产，电商营销素材图片对视频。我们觉得模型数据是我们的核心资产，所以我们肯定是不会用开源，

刘思毅 ：我觉得很刚需啊武彬老师，这个真的很刚需，因为电商非常重复劳动，电商内容又能直接产生经济价值，就是因为他这个很牛逼，内容做得好是能带来GMV。

就相当于是他把人力成本全部付给你做 AI 工具了，而人力成本本身和 AI 工具本身如果相差不大，并且你又可以真的非常稳定精准 7 × 24 小时随时 stand by 的话，确实会有很多人买单。

武彬：我们的成本是基本上他人力成本的 1/ 5。我们能测算出来就是人做图或者人做视频成本大概是200，我们就大概20~30。我们不是按单条，我们是给他打包一个套餐素材。

刘思毅：本身的质量差距有多大？

武彬