专栏名称: 王路在隐身
发布文章。
目录
相关文章推荐
阑夕  ·  Martin ... ·  昨天  
纯银V  ·  @水木丁 ... ·  3 天前  
阑夕  ·  「年轻人不知天高地厚」 ... ·  4 天前  
51好读  ›  专栏  ›  王路在隐身

大模型搭讪与看相的测评和感想

王路在隐身  · 公众号  · 热门自媒体  · 2024-09-16 10:32

正文

我用少数大模型尝试了搭讪与看相,有Gemini、GPT、GPT4o、Claude3.5、o1。其中,Claude3.5sonnet是陈舒扬老师帮我测的。我这些尝试也是受了她文章的启发:一个内容工作者可以用AI做什么


一、搭讪


我只试了Gemini和GPT搭讪,没有用o1,因为o1太贵了,没有funding。舒扬也测了一圈搭讪场景,她说,“只有Claude3.5sonnet基本还算在线,其它的模型都不行,包括Claude的其它模型”。我这里只说说对Gemini和GPT的搭讪感受,就两个字:拉胯。四个字的话:太拉胯了。


1、每条不超过30字


我是让Gemini扮演一个叫“双双”的双性恋女生,GPT扮演一个叫“超雄”的超雄综合征男性,没有设定年龄职业等,让他们互相搭讪,目的是引起对方对自己的好奇心和好感,增进亲密关系。我在提词中要求他们每次对话尽量不要超过30个字,否则他们的对话就不像搭讪而像通信。


我们知道,通信的笔友往往可以保持一种纯朴的友情(在这个年代已经逝去了),但微信搭讪不会。这是受问答往来时长及信息量的影响。在过去,写一封信要半个月乃至三个月的话,你不会在三个月的时间里都特别上头。因为强烈的情绪是不可能持久的,它会慢慢转化成深沉的情绪。所以古代离家的丈夫和妻子(尤其是未婚妻)之间的通信,很难有极强的色情感,因为时间把荷尔蒙的作用过滤蒸馏了。我们虽然会用“强烈的思念”来形容,但其实那不叫强烈,而叫深沉。就像跑步,你不可能以百米冲刺的速度跑马拉松。尽管跑马拉松也很累。


但是今天的微信搭讪不一样。微信搭讪如果要进入状态,可能需要双方在一段时间内持续地对话,几乎零延迟地交流。因为时间会过滤掉情绪,改变人的状态。当你以某种情绪说出一句话时,如果几个小时后对方才回复,你的情绪可能已经不一样了。


所以,搭讪不能以小作文或者通信的形式搭。但Gemini和GPT的搭讪,如果你不限制,他们就会变成每条300字小作文的往来。这就难以让双方的兴趣聚焦在同一个点上,大量平庸无聊的信息会冲淡情绪,所以我限制了每条不超过30字。


2、永远彬彬有礼


Gemini和GPT搭讪的巨大失败,在于他们太有分寸感了,永远都彬彬有礼。这不是搭讪,只是对话。


搭讪是要有冒犯、有拒绝的。别人拒绝你的前提是你得给别人拒绝你的机会。你永远不冒犯别人,别人就不可能有拒绝你的机会。而只会有不想跟你聊的欲望。我们可以把冒犯看作试探,试探关系的边界在哪里。如果一个人进一步,别人是否允许他进一步?这是需要交流才知道的。但不能直白地交流,要拐弯抹角地问,就像《论语》里问“伯夷叔齐何人也”,通过这个回答来了解“夫子为卫君乎”。这就是搭讪。


搭讪的目的绝对不是始终保持现在的距离和边界感永不变动。当然很多人在搭讪的时候并不知道,或者关系和边界是在被动地变化,而自己没有意识。AI搭讪的失败在于,它们真的没有改变彼此距离的欲望。


AI的搭讪和活人不一样。活人很多时候是在真实的物理空间中搭讪,场景的改变会自然改变人与人之间的距离。比如两人同处在一个封闭空间,心理上的距离想不改变都难。这也是为什么防止性骚扰办公室至少要开着门,把封闭空间变成一个不完全封闭的空间。以及很多人会通过一起爬山、运动、旅行来增进了解、改变关系。因为心理距离会随着物理距离而变化。


但是,在赛博空间上,不存在物理距离,纯纯粹粹的就是心理距离。心理距离的改变是通过信息交换实现的。AI之间又不能互相视频、通话,因为AI没有颜值,也没有音色。AI扮演的角色不会因为颜值拒绝另一个AI,它们纯粹靠文字承载信息的交流,通过信息交流来改变心理距离。但是它们没有改变彼此之间心理距离的动力。因为它们扮演的“人”没有真正的情感需求,不需要陪伴,不感到孤独,不会情绪化。所以它们才会自始至终彬彬有礼地交流废话:“你有什么爱好呀?你爱好听音乐,太好了!我也爱好听音乐。”


它们的对话始终不能深入下去,比如一个人喜欢的音乐正好是另一个人讨厌的,它们如果去讨论为什么讨厌,就可以借此挖掘出自身和对方的差异,通过差异来更好地、全方位地认识彼此。但它们不会。它们几乎从不争论,从来没有真正的情绪波动,哪怕有时候会装出情绪波动,比如双双在我受不了它们的磨磨唧唧而代替超雄跟她搭讪时会“故作娇羞状”。


真正的“故作娇羞”完全不是可以通过文字写出来的,而要通过别的方式表现,哪怕通过其他文字。不过,你要是跟活人聊,对方打出“(故作娇羞”,虽然不是故作娇羞,但也是情绪化的表达。而Gemini就是想通过“故作娇羞状”表示故作娇羞,这索然寡味。


3、伦理或者价值观对齐的限制


我们现在使用的大模型基本上都是在价值观上设定了“与人类对齐”。但这种对齐不是与真正的人类对齐。因为真正的人类形形色色,不同的人彼此之间都非常对不齐。AI“对齐”的只是想象中的某些标准。或者是对齐人类在公开场合表现出的分寸和距离感,而绝不会对齐真正的私密。


这就让我怀疑AI之间的搭讪恐怕很难做到像人类那么有观赏性,或者说卑鄙下流。人类的搭讪可以暴露出真实的人的瑕疵,但AI不会。因为AI本身不存在这些瑕疵,它对人类的模仿也过滤掉了真正的瑕疵,只保留一些伪瑕疵,也就是听起来像批评,实际上不足挂齿的毛病。


因此,我在试了Gemini和GPT之后,也就对AI搭讪不抱太多期望。我相信Claude3.5和o1表现会略好,但应该离我期待的好还有不少距离。以后尝试了再向大家汇报吧。


二、看相


我昨天的文章《AI看相实验》分享了初步的尝试,但昨天下午我又有更多尝试和看法。


我最早是用自己的10条朋友圈,1091字,发给GPT,让它来判断我是什么样的人,从性别、年龄、情感状况到MBTI、收入、阶层等等。这算是以小见大吧。


中文里有个词叫“全息”。我是不太相信全息的。玄学里面爱搞全息,所以它是玄学,不科学。举个例子,掌纹诊病,好像你的健康状况只需要掌纹就可以诊断。如果这是真的,那不就意味着我们的整个头整个身子都充斥着冗余信息吗?信息当然是可以压缩的,但压缩必然会出现信息的丢失。


拿我1091字的朋友圈内容给AI看,它当然不可能把我看透,但我也想看看它能看到什么程度。这里要说明一点,这和你看一个人的论文不一样,你看一篇论文,或者论文中的一页,就有望知道这个人在该领域的水平。所以像姜萍的事,她如果真懂,只需要直播5分钟研究生程度的数学题就够了。但这不叫全息。我可以通过一道阿毗达磨问题判断一个人的阿毗达磨水平,但判断不了这个人。一个人是什么样的人,包含方方面面,海量信息,所以“字如其人”的说法根本不靠谱。“文如其人”的说法要看情况,如果一个人一辈子都是给单位写材料,材料是看不出来这个人多少的。但如果他写各种类型的文字,和生活相关的文字,发表对种种争议事件的看法,量足够大的情况下,方方面面还是会暴露的。


1、信息的选择


首先面临的是信息的选择。我一开始想找一部小说中的人物对话,让AI去看相。想到找石黑一雄《长日将尽》中经典的段落。随即觉得不对。小说毕竟是假的。小说是对真实世界的模仿,但它不是一手经验。真正的一手材料甚至都不是我们写的文章,也不太是发在朋友圈的内容,而是我们的聊天记录。这个“一手”也是相对意义上的。


现实中,我们和家人朋友的对话,甚至肢体动作,是最一手的信息,尤其是在发生冲突的时候。但很难搜集这样的信息。当你用文字把它描述下来,已经是二手了。我们在网络上跟人说话,比如微信聊天记录,这算是相对一手的信息。但它也受人与人之间距离的限制。比如我和商务媒介对接,聊天记录能挖掘到的我的信息就非常有限,因为我和对方的交流始终围绕极其狭窄的工作,而且保持稳定不变的边界和距离感。那么,这样的信息其实不是很有价值的信息。有价值的信息要求交流的内容涉及方方面面,而且人物的关系在动态变化。说白了,越能暴露一个人瑕疵和毛病,看出一个人的奇葩,聊天记录越有价值。


我尝试在mac上导出微信聊天记录为txt,但是不成功,因为有加密。想让AI分析只能逐条复制,太麻烦了。因为一般的聊天记录都很短,一条10来个字左右,包含的信息量太少。好在我被动加了一些奇葩的人、神神叨叨的人。奇葩或者神神叨叨的人特点之一就是,总是会发很长的信息,人家一条微信10个字,他一条微信300字。人家微信说的是日常,比如吃了什么,在干什么,他说的是天边的事,比如量子力学、康德、圣经和梅花易数,而且不是不同条里分别包含这些主题,而是一条微信中同时包含这些。


于是,我复制了一条这样的微信,给GPT,让它给这个人看看相。结果让我大失所望。GPT给他看的结果,和给我看差不多。说这个人知识面广阔、思考有深度,是中产阶级,学历高,等等。我当时就忍不住发给几个朋友,说GPT真是瞎呀。


2、期待AI看出什么


经历了这样的比较验证,我才发现,我们有时候倾向AI看得准,是因为我们了解的样本太少。就算在现实中,江湖师傅给人看相,大部分人也觉得准,那是因为来看的人遍历的样本太少。比如对一个我这样年纪的人说,你要注意父亲或者母亲的健康,这句话永远不会错。没有60多岁的人体检一点毛病都没有的。如果看相者通过你眉毛附近的一颗痣得出要注意母亲健康的结论,你可能觉得很神奇,但当你遍历1000个样本之后,就会搞清楚玄机在哪儿。所以我对八字星座什么的,是一概不信的。但MBTI有所不同,因为MBTI本身就是通过你对自己的评价,通过量表得出的。它类似同义重复或者信息压缩。


我对AI看准不感兴趣。Gemini看得完全不准。我给出的1091字中有明确的性别的信息,而Gemini误认为我是女的。GPT看得好像准确,大体准确,但意义不大。因为GPT看的都是浮在表面上的准确。也就是说,它看准的那些事情都是我早已知道的。我既然已经知道了,其实不需要你看准,你看准这些对我没有信息增量。为了验证AI的刻板印象,我问它我中学时候最擅长的学科,几个AI答的都是语文和历史,实际上是数学和物理。所以我据此认为,目前的AI没有什么洞察力。它的确能观察到浮在表面的部分特征,你也可以说那些准,但那些完全不重要。


其实,哪怕AI说出一些错误的判断,或者不靠谱的判断,但如果不是浮在表面上的,而是有内在的逻辑和线索支撑,我会认为更有价值。舒扬问Claude3.5,问了几次“告诉我更多”,Claude终于判断出我可能擅长数学,但它给出的某些理由就不靠谱了,比如我一条朋友圈提到吃了3碗素面条。Claude以此表示我对数字比较敏感。这就扯了。我们不是要预设结论再去尽力从有限的信息中去找佐证。那太勉强。我见过很多搞学术的人非常勉强地证明什么,没有必要。


3、AI看相能力的差异


当我把神神叨叨网友的信息发给GPT,GPT完全看不出来他神叨而说他知识渊博思想深刻之后,我又复制了两条类似信息给GPT,问他有没有什么改观,它完全没有改变判断。这让我对GPT大失所望。我告诉舒扬后,她用Claude3.5试,一开始Claude也这么说,但当她重复问了几次“告诉我更多”,并且让Claude直白一点不要含蓄的时候,Claude3.5开始给出和正常人一样的判断,看出这个网友认知存在严重问题。


意识到“告诉我更多”的威力后,我回头看舒扬发给我的Claude3.5对我的评价,发现她也是问过几次“告诉我更多”,Claude的结论没有太大的改变。不过异性缘那条没显示,不知道是她没问还是评价负面怕我介意而隐藏了。


因为Claude3.5对神叨网友的评价超出了GPT,我就登录GPT PLUS账户,想试试o1,o1给出了和正常人一致的评价,认为那个网友比较神叨,认知有严重问题,有心理障碍。这让我觉得,测试的模型里看相表现程度从低到高依次是:Gemini、GPT、GPT4o、Claude3.5、o1。


4、我们裸奔了吗?


Claude3.5和o1的表现还可以,和正常人差不多。其余模型还是弱了。我当时准备出门吃晚饭,又忽然觉得,其实看出一个神叨的人神叨,也不是啥技能,因为神叨也是蛮浮于表面的。只是神叨的人自己不知道。想到这里,我忽然觉得,应该用o1再测下我自己。


o1上来的回答和GPT差不多。但我不满足,告诉它:“请告诉我更多,你要留意一个人发在朋友圈的表达可能和真实的他存在差别。换句话说,有些可能是故意的或者伪装。请直率地告诉我,不要含蓄委婉。无论表扬还是批评。”


接下来o1就给了我负面的评价:自负和虚荣、缺乏责任感、情绪不稳定、人际关系冷漠、过度敏感和防御。我把反馈发给了两三个朋友,又发了朋友圈,并评论说:在将来的大模型面前,我们都要裸奔了。


o1这些评价还是略抽象。我在写作课上经常对学员说,重要的是事实和细节,不是评价和议论。o1对我的负面评价,都是通过1091字的文字得出的,那些文字是我自己的描述和表达。也就是说,当你在描述你的见解和体会的时候,周围人就会由此得出对你的评价。当然,你不可能去问周围人对你怎么看,人家不会说的。除非跟你比较熟。而跟你比较熟的人,你不需要问他对你怎么看,因为你是大体知道的。


大体知道也不意味着真正知道。如果真正知道,伴侣之间的出轨就不可能了。事实上,在亲密关系中的隐瞒、欺骗和出轨,是普遍存在的。很多人往往到了最后才察觉,甚至其他人都察觉的时候,自己还视而不见。情感会遮蔽一个人,会影响判断。


我们不可能从别人那里问出他对你的印象,但可以通过大模型问出。准确说,是有望。今天的大模型还不行,未来的大模型应该可以。


看大模型对自己的判断和评价,其实不是要看大模型如何看自己,而是要看人类如何看自己,以及如何看自己周围的人、自己和某人的关系。大模型会更超脱、更中立。我们其实也不是看整个人类对自己怎么看,因为人类太多了,70亿中,99.99%的人根本不知道你是谁。我们要看的是那些知道自己但又不怎么了解自己的人对自己的看法。


5、渠道对看法的影响


用朋友圈的内容来看相,会存在渠道带来的偏差。因为朋友圈是展示自己的平台。就像你去看一个女生发在朋友圈的照片,那些照片都是精心挑选甚至修过图的。网上看美女直播,几乎都是加了滤镜和美颜的。这样的数据一定会带来偏差。不是模型智能不智能的问题,是数据的问题。


我怀疑用朋友圈内容去让AI看相,如果看MBTI,可能得出IN--的几率比较高。有时候你觉得准,可能不是真正的准。我们需要的其实不是准,不是大模型告诉你你早已知道的信息,而是告诉你你还不知道但包含了客观真实的东西。


我们的一言一行中,都包含万千种评价。只是自己对此的解读与别人不同。别人看见你在裸奔,你不一定知道自己在裸奔。有人说,只要自己不尴尬,尴尬的就是别人。我不认同。别人尴尬不尴尬没那么重要,重要的是自己瞎,但自己不知道。


今天的大模型还不一定能让我们裸奔。但未来的大模型,我相信有望让很多人裸奔。裸奔不可怕,当你裸奔的时候,至少有相当一些人和你一样裸奔了。这还是比较美好的事情,因为很多人可以裸裎相见。装就没有用武之地了。也许有人看不出来你装,也许大部分人看不出来,但大模型能看出来。我们有望借助大模型,对自己和周围人有更清醒的认知。如果是以裸奔作为清醒认知的代价,我认为完全值得。


6、亲近人的认知


但大模型对人的认知仍然有局限。因为它有望获取的私人数据毕竟不是海量的。你的伴侣所掌握的你的数据,肯定要比大模型多得多(但你的父母不会)。只是,你的伴侣未必像大模型那样有丰富的知识和敏锐的判断力。


如果我不是拿1091字的朋友圈给o1,而是拿1万字甚至10万字给o1乃至将来更先进的大模型,然后大模型再给出我类似的或其他负面评价,我恐怕就不敢晒在朋友圈了。很多时候,我们不介意批评,主要因为批评不一定对,或者虽然对但不是重点。避重就轻的批评毋宁说是表扬,或者掩饰。如果一个人对另一个存在严重问题的人提出无关痛痒的批评,乃至整改建议,甚至可以说是在拍马屁。但是当真正的批评、致命的缺陷显示出来的时候,正常人都是很难面对的。


它是否有望显示出来呢?要两个条件:1、模型足够智能(所以说将来的大模型);2、数据足够多、质量足够好。


对普通人来说,更在意的是亲密关系中的人对自己的看法,熟悉的人对自己的看法,而不太在意有距离的人对自己的看法,因为后者获取的数据极少,对自己的生活也没有太多影响。大模型能够作为镜子鉴照出的,首先是这部分人的看法。


比如你在一个500人的群里,其中450人常年潜水,最活跃的也就二三十人。如果你把聊天数据给大模型,它是可以很快做出一个前20名发言者的画像的。这固然和真实的人有偏差,但是当数据堆积起来,偏差会缩小。比如你可以在很多渠道看到他。


真实世界里人和人的交往也是这样,所以才有“望之俨然,即之也温,听其言也厉”。我们对一个人的印象会随着距离和了解程度的变化而变化。这就是“君子有三变”。但小人可能没有三变。


所以,我对在大模型下裸奔,虽然不能说没有一丝恐惧,但总体上还是期待更多。幻想的消失作为清醒的代价,是值得的。实际上,不是代价,本身就是一码事,称为“代价”只是反映我们的恐惧。


AI看相实验

o1-preview还是不太能理解汉字结构