专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
目录
相关文章推荐
兵团零距离  ·  万物竞发争春来 | ... ·  12 小时前  
兵团零距离  ·  万物竞发争春来 | ... ·  12 小时前  
数字生命卡兹克  ·  全网首发|一手内测字节OmniHuman-1 ... ·  2 天前  
数字生命卡兹克  ·  全网首发|一手内测字节OmniHuman-1 ... ·  2 天前  
青澄财经  ·  携程金融打造携程增长第三极 ·  3 天前  
青澄财经  ·  携程金融打造携程增长第三极 ·  3 天前  
大厂日爆  ·  刚刚,B站财报来了 ·  3 天前  
大厂日爆  ·  刚刚,B站财报来了 ·  3 天前  
51好读  ›  专栏  ›  DataFunTalk

揭秘大模型如何革新用户画像与标签体系

DataFunTalk  · 公众号  · 科技自媒体  · 2024-11-01 18:49

主要观点总结

本文主要介绍了技术成熟度曲线、用户画像和标签体系的相关概念及其评估的重要性。在大模型时代背景下,详细介绍了用户画像和标签体系的技术成熟度曲线,包括技术架构视图、技术成熟度排序视图、技术难度视图和业务价值视图等。同时,文章还讨论了技术成熟度曲线中的七个关键指标,包括技术成熟度、成熟周期、技术难度等,并详细解读了大模型对标签体系的影响以及各技术点的成熟度评估。最后,文章强调了大模型在标签体系中的作用和价值,并指出其发展周期和潜在应用前景。

关键观点总结

关键观点1: 介绍了技术成熟度曲线和用户画像和标签体系的相关概念及其评估的重要性。

描述了技术成熟度曲线是描绘新兴技术从萌芽到成熟应用的典型路径模型,而用户画像和标签体系是通过收集用户信息来形成用户形象的技术体系。

关键观点2: 在大模型时代背景下,详细解读了用户画像和标签体系的技术成熟度曲线。

分析了大模型如何影响用户画像和标签体系,并介绍了相关的技术成熟度曲线。

关键观点3: 讨论了技术成熟度曲线中的七个关键指标。

包括技术成熟度、成熟周期、技术难度、业务价值、管理协作难度等,并解释了这些指标在评估技术产品时的意义和作用。

关键观点4: 强调了在大模型背景下,大模型在标签体系中的作用和价值。

介绍了大模型在标签体系中的应用前景和潜在价值,以及其在不同领域的应用场景。


正文

全文目录:

1. 技术成熟度曲线:是什么?为什么需要评估?

2. 用户画像和标签体系:是什么?为什么需要评估?

3. 大模型背景下的“用户画像和标签体系”

4. 评估维度:包括技术成熟度、成熟周期、技术难度、业务价值、管理协作难度、大模型助力收益、大模型结合周期。

5. 用户画像和标签体系的技术成熟度曲线讲解,其中包括:技术架构视图、技术成熟度排序、技术难度、业务价值、管理协作。


大家好,我是傅聪,来自Shopee新加坡的搜推广算法团队。
今天,我想通过这张“ 标签体系技术成熟度曲线图 ”,和大家聊一聊“大模型时代背景下、用户画像和标签体系技术成熟曲线的现状与革新”。

这张“标签体系技术成熟度曲线图”是由我和几位在用户画像和标签体系领域有着深厚积累的技术专家,以及DataFun的专业团队们共同协作,经历了几个月的讨论、确定、绘制等阶段,才终于完成。希望能给各位企业管理者、行业从业者、技术学习者提供一些思路和参考。
01
什么是“技术成熟度曲线”

先来说第一部分的第一个问题,什么是“技术成熟度曲线”?我们可以用一个简单的现象来说明:每当技术圈出现了一个新技术时,这个新技术会先被人“捧上天”、接着被人“泼冷水”、最后,终于找到了自己的归宿——也就是业务的实际应用场景和商业价值。而这个过程,就是一个具象化的“技术成熟度曲线”。用书面一点的文字来表达,技术成熟度曲线,也叫Gartner炒作周期,它是一种描绘新兴技术从萌芽到成熟应用的典型路径模型。它一般可以分为五个阶段:技术触发、期望膨胀、幻灭低谷、启示爬坡和生产力平台。

02
为什么要评估“技术成熟度曲线”
第二个问题,为什么要评估“技术成熟度曲线”?这是因为,通过了解一项技术所处的阶段,我们可以更明智地做出决策。举个例子,在期望膨胀阶段,大家对新技术充满了无限幻想,期待它能解决一切问题。但实际上在这个阶段,新技术可能还不成熟,应用起来会有各种坑。这个时候,如果盲目投入大量资源,反而会适得其反。相反,在幻灭衰退阶段,虽然表面上看,市场的热情悄悄冷却、泡沫被挤得一干二净,但此时,新技术本身才开始趋向成熟。如果这时候抓住机会入场,反而有事半功倍的效果,所谓的“人无我有,人有我优”。这也是为什么需要评估一个技术的成熟度曲线,一方面,它能帮我们规避一定的风险,另一方面,也能指引我们抓住入场时机。

接着来聊聊第二部分,“用户画像和标签体系”。首先,“用户画像和标签体系”是什么?这两个概念可能对很多人都不陌生。简单来说,“用户画像和标签体系”就是通过收集用户的各种信息,比如年龄、性别、兴趣爱好、消费习惯等等,给每个人贴上不同的标签,形成一个立体的用户形象。

其次——为什么需要“用户画像和标签体系”呢?对于企业或者平台而言,用户尤其重要,只有用户的持续使用和增加,才能维持一个企业的经营和发展。因此企业或平台就需要更深入地了解用户,才能提供更个性化、更精准的服务,而“用户画像和标签体系”就可以帮助企业很好地解决这一问题。举个例子,当你在购物网站上经常浏览和购买数码产品,系统就会给你打上“数码控”的标签。一旦出现了数码产品的新品发布或者促销活动,网站就会第一时间通知并推送消息给你。对于用户的你来说,这为你省去了大量的关注和筛选的时间成本,提高了你的用户体验;对于平台来说,这即是一次对入驻商家和品牌方的宣传,也是一次对自身的用户营销,可以说是一举多得。
03
大模型来了,对“用户画像和标签体系”的影响

第三个部分,我们来聊一聊今天的技术背景——“大模型时代”。大模型来了,像ChatGPT这样的人工智能技术,对于“用户画像和标签体系”会有什么影响呢?

我的观点是,大模型极有可能从数据处理、标签生成、用户理解等各方面,彻底革新“用户画像和标签体系”。为什么说是“彻底革新”?举个例子,因为大模型技术可以更精准地理解用户的语言和行为,所以运用大模型技术可以帮助生成一个更细致、更准确的标签。仅仅到这里,大模型不过是对“用户画像和标签体系”起了一些助力作用而已,可事实的情况,远远不止如此,大模型不仅仅可以基于过去的行为来更精准地分析用户,它甚至还能够预测用户未来的需求。

不仅如此,大模型时代的训练成本非常高,各类的开源模型有非常多的商业化限制,各种的标准框架也没有统一和对齐,市面上并不存在一个大一统的解决方案。在这种情况下,技术成熟度曲线的价值就从中体现出来。企业应该如何看待这项新技术?如何评估这项新技术能给现有的技术产品都来多大的业务价值?以及何时才是最好的入局时间?就可以从成熟度曲线,获得一些参考价值。

说了这么多,究竟在大模型的背景下,各类企业和平台当下的用户画像和标签体系的技术形态,会出现哪些改变呢?这些变化又需要多长的时间才能够见到效果呢?大家别急,关于这些我都将会在第五部分的曲线详解时,一一展开。

或许就在不久的将来,我们就能看到用户画像和标签体系,在大模型的强势介入下,发生翻天覆地的变化。面对来势汹汹的大模型,企业和平台需要提前做好布局,抓住这个技术升级的机会,不然很有可能被时代所淘汰。

04
技术成熟度曲线的7个关键指标
第四个部分,在正式讲解技术成熟曲线之前,我先介绍一下评估时所用到的7个关键指标。

第一个是技术成熟度。技术成熟度,可以理解成某项技术目前正处在的发展阶段,比如是刚有个想法呢,还是已经被广泛应用了?就像植物的生长周期一样,是刚萌芽?还是已经开花结果?

第二个是成熟周期。意思是说,某项技术从概念到商业应用需要多长时间。明确了成熟周期,企业就能判断什么时候投入最合适,如果不想太早入局冒风险,但是也不想错过下场的最佳时机,可以重点了解这一个指标。

第三个是技术难度。有的技术听起来很牛,但实现起来可能有不少坑。明确技术难度,意味着我们可以提前预判未来遇到挑战的难度,提前想好解决方案,避免掉坑里。

第四个是业务价值。每种技术在不同阶段对实际的业务影响是不一样的。有的技术可以迅速带来收益,有的可能还需要一段验证时间。企业可以根据业务价值,优先选择那些对业务有高价值的技术。

第五个是管理协作难度。技术的实施不光是技术人员的事,还涉及到管理部门和整个组织。一个技术的上新,可能会需要多个部门的人员齐力协作,这就要考虑到可能遇到的管理难题,提前做好协同与沟通。

第六个是大模型助力收益,也是我认为的重点。就像我前面介绍的,大模型在标签体系中的应用潜力不小,利用AI技术可以更精准地生产标签,从而更深入地理解用户需求,提升业务效率。

第七个是大模型结合周期。说的就是,大模型技术什么时候能够介入主流应用?这个是需要做预测的,企业可以根据预测结果,提前做好准备,比如招聘专业人员,培训现有团队、升级系统等等,这样可以在大模型升级真正到来时,抢占先机,不被甩在身后。
高清版可点击文末的阅读原文获取

05

技术成熟度标签篇讲解

第5部分,  现在我们就正式开始讲解“大模型时代背景下、用户画像和标签体系技术成熟曲线图”,这张大图可以拆解成五个小图,分别是:技术架构视图、技术成熟度排序视图、技术难度视图、业务价值视图、管理写作视图。

现在我们来看第一张小图“技术架构”:这张图最左边这一列是完整的画像标签技术体系,它是一个非常复杂技术体系,包含非常多的技术品类,是一个跨学科也跨了很多技术品类的技术体系,市面上应该没有比我们这张图更充分、更全面的对画像标签技术的列举的表达了。

这个庞大的树状结构的叶子节点,就是某项画像相关技术的细节表达。这个表后面我们都在前面提到的技术成熟度曲线的最重要的几个维度上做了标记。我们可以看到,右上角就是这些标记的含义。

菱形代表目前行业标杆企业中这项技术的成熟度,也就是这项技术处在技术成熟度曲线的哪个周期阶段。标记越多代表越成熟,阶段越靠后。

伴随着菱形的是后面的空心圆形,代表着成熟周期。如果这项技术尚未成熟,那么它代表的是这项技术到达成熟期预计还需要多久;如果这项技术已经成熟,那么它代表的是企业在没有外力帮助下,自建团队,参考业界标杆从零到一自行进行技术演进,到达成熟期所需要的时间。

空心的五角星代表的是技术难度,同样,标记越多代表难度越大。注意,不是技术难度越大的技术就一定需要更长的成熟周期。成熟周期还要看这个技术迭代升级过程中所需要的不可抗的各种时间成本投入。比如,有的技术很难,但技术圈内已经有非常体系化的、抽象程度高的、开源可复用的技术方案,可以拿来即用,就不需要很多时间投入。

实心的五角星代表 了业务价值。也就是从企业角度看,这项技术发展的必要性。行业中并不是所有企业都在图中列举的所有方面进行了建设。对于一些敏捷迭代发展的企业,他们更多的是保留了业务价值高的部分,或将业务价值较低但有利于企业发展的部分放在靠后的时间进行投入。

之后是管理协作难度。我们刚才讲到,画像标签技术体系是一个跨学科跨品类的复杂技术系统。那它就一定会涉及跨团队的分工协作。

重要的在后面,空心三角形代表大模型技术主力对应技术进一步发展能产生多少业务价值。而相对应地,实心三角代表大模型助力周期。注意这里,只有大模型能发挥作用的部分,我们才会标记对应的价值和周期。只有一个空心三角附带一个叉号的代表我们不认为大模型在这里能带来增量价值或者目前看不到大模型能带来什么确定性的收益。

接下来我们正式来讲解这份画像标签技术成熟度曲线图。图像标签技术可以被粗略划分为三个层次:画像建设、画像产品和画像应用。这样的组织方式也表达了画像标签相关技术图谱的一种拓扑结构。

画像建设技术囊括了构建画像基础设施所需要的各种技术。这一部分帮助我们理解从零到一搭建一套企业自己的画像标签体系需要在哪些技术点上进行投入。

画像标签技术本质上是基于杂乱、大规模、充满噪声数据的数据挖掘技术。因此,数据技术是画像技术的基础。我们可以看到,数据收集、传输、清洗、存储、质量管理、以及数据安全构成了画像技术的底层支撑。这些技术里面,尽管很多技术都有一定介入难度和时间成本,但绝大部分都十分成熟。在数据库、网络、存储领域,都已经有了非常成熟且易用的方案。这些方案,往往也都是与其它团队公用的基础设施,不需要为了画像建设独立构建技术团队进行投入。在互联网时代,数据团队基本都是每个相关产业公司必备的基础技术团队。这里值得注意的是,在数据清洗下面,我们认为大模型对于这里的数据挖掘和机器学习算法并不能带来增益的价值。这是因为这部分的数据挖掘和机器学习算法仅代表用于超大规模数据清洗概念下的相关算法。这部分算法的特点是速度快、可扩展性强,对精度要求不太高。例如TF-IDF、Kmeans这种算法,用于解决某些特定问题效果已经足够好,同时大模型也无法低成本地应用于如此大规模的数据。这部分我们认为大模型没有对应的替代价值。

另一个需要注意的点在于,我们认为大模型在数仓分层、主题域建模、数据域建模方面是有一定价值。其价值在于大模型在所嵌入的知识足够庞大,在合适的引导下,可以针对特定的数据或主题下,输出层次化抽象的概念体系表达,简化这部分所需要依赖的人的经验,同时针对特定业务,对数据分层做出自动的、合理的抽象设计。然而我们也同样认为大模型的介入难度是比较大的,这里大模型能完全替代的周期比较长,我们预估在三年以上,取决于大模型知识容量的扩展和幻觉的解决程度。

然后我们来看画像标签技术的核心部分。标签体系的建立。传统的标签体系建立主要包含两个方面:标签建模和标签挖掘。

标签建模和挖掘需要大量人工的干预,主要依赖人对于业务、用户、产品的理解,将一些概念形而上地构建起层次化的概念体系,也可以理解为一种特殊的知识图谱。以往我们往往需要领域专家来进行编写,或者基于可以购买的或其他渠道获得的行业知识库进行改进。而现在,由于大模型压缩了大量存在于书本和互联网的高质量的知识,这样的概念体系输出对大模型来说是轻而易举的事情。我们认为大模型介入或者取代的价值非常大。大模型可以帮企业节省非常多的人员成本。之前都是雇佣外包,甚至需要正式员工介入进行标注、修订,而现在大模型的输出基本上可以逼近专家编写的效果。甚至可以做到更加全面和细致。突破了仅仅依赖一些专家的知识局限。而同样,我们认为大模型成熟地取代目前标签建模和挖掘系统的周期会比较长,大概需要三年以上。其一也是因为大模型的幻觉。其二则是大模型的推理成本。要知道很多互联网公司内部数据的生产是以每天几十到几百PB的规模在产出的。其中不乏大量的图片、视频、音频等多模态数据,大模型在这类数据上的推理成本过高,并在可见的三年时间内,不会有明确的缓解的方向。

接下来就是画像算法。有了标签数据和用户行为数据,我们可以通过各种类型的算法去构建画像,以及在基础画像之上,进一步依赖算法抽象出更高层次的画像,或者对缺失的画像或者标签进行预测。这里面,我们可以看到,除了特征工程以外,我们认为大模型在这里没有替代价值,一方面是目前算法的效果大部分足够好。另一方面则是大模型相对成本过高,替代带来的增量收益无法弥补成本消耗。而在特征工程上,我们认为大模型有很高的效用,因为目前已经有了一些初步的基于大模型的特征挖掘和特征工程的方法,相比于传统的方法,往往最有效的还是领域专家,也就是算法工程师根据自己的业务经验针对不同的问题设计不同的特征体系。但大模型完全有潜力替代这里的人力投入,解放算法工程师的人力。同样的,这里替代的周期在三年以上,主要理由依然是幻觉和成本。标签体系不同于其它任务,是公司各项产品的基石,因此对幻觉的容忍度极低,画像和标签的错误往往会带来多米诺骨牌效应,是不容出差错的地方。

接着是画像的评估,这里基于大模型的agent技术,有能力自己指定并执行画像的评估流程,将画像质量控制自动化。替代的也是传统模式下,在这里投入的一些低门槛的人力劳动。但我们不认为大模型可以执行基于AB平台的评估测试,这是因为AB测试目前还是一种比较依赖人工经验、因为业务特性而大相径庭的数据科学工程,大模型能在这里起到的作用十分有限。

然后是画像产品的层次。当我们构建起来画像之后,对于使用的人来说,它可能只是一块存储了大量数据的硬盘,没有平台化的产品设计,画像的使用门槛是非常高的,尤其是对于非技术背景的产品和运营人员。因此,我们需要把画像数据进一步抽象,根据业务需求,降低画像的使用、接入、管理和阅读成本。于是,画像平台应运而生。

从画像平台这个概念出发,我们可以理解,这个领域主要涉及的是软件工程的概念。因此我们认为大模型在平台设计和流程自动化上可能存在一定收益,但具体的产品落地时间是不确定的,主要取决于现在学术前沿的大模型agent的发展进度。这里要注意的是,基于画像数据进行分析和可视化,我们认为大模型大有可为。这是因为大模型在针对多模态数据进行解读和分析已经在各种业界的初步尝试中初见端倪。基于多模态数据的大模型推理能力,也在学术界高涨的热情中高歌猛进。传统模式下,我们需要组合各种各样的分析工具,来分析各种类型、各种模态的数据。最后通过各种人工经验、套用模板来生成有限维度的可视化报告。而通过大模型,我们可以只为大模型提供原始数据,然后通过聊天形式的接口,获得针对每个需求方个性化的可视化分析报告。尽管愿景很好,但我们仍然认为大模型领域需要三年以上的时间,才可以孵化出成熟的针对多模态数据的推理技术。这是因为三个方面,第一目前成熟、高质量的多模态数据十分匮乏,而多模态大模型的质量往往依赖大量的相关数据。第二多模态大模型的训练、推理技术尚不成熟。第三,多模态大模型的训练和推理成本更高。







请到「今天看啥」查看全文