专栏名称: 硅星GenAI
比一部分人更先进入GenAI。
目录
相关文章推荐
時間的玩家TimeIsArt  ·  每日临在 | 2025.02.07 ·  20 小时前  
信传媒  ·  预防流感重症发生 听听医生怎么说 ·  4 天前  
51好读  ›  专栏  ›  硅星GenAI

挑战用跃问App“作弊”答B站硬核会员题,能顺利通关吗?|AI鲜测

硅星GenAI  · 公众号  ·  · 2024-06-19 19:33

正文

🐰 都说B站硬核大会员的通关测试题目极其硬核,不如我们用AI做个弊?

上周国产 AI 跃问App 上线了(不知道跃问的小伙伴自行补课: 阶跃星辰 VS “弱智吧”,AI 到底懂不懂人类的恶趣味?|AI 鲜测 ),这次的跃问除了原来的 长文总结、文档理解 等功能之外,既能 拍照问答、又智能搜索 ,估计大家看测评也看烦了,想起B站站硬核大会员的进阶题目倒是困扰我挺久的,据我调查三五好友,他们也声称题很偏、比较难。现在压力给到跃问App,它能否帮我们通关,直达LV6 小闪电⚡️?我们一起来试试!

第一次挑战

那我们先选择 动画/动漫、知识、鬼畜区 ,接下来直接答题。
开始答题:
可以看到这次 AI只给出了答案 即使 过程中调整提示词,它依旧只是给出一个答案,看着倒是简洁明了,但是 无从判断它的识图能力、 分析推理能力 到底如何。
你觉得AI答的对吗?你的答案是什么?
不过很好的一点是我们跃问全部答完了,那到底能不能通关呢?
(本次题目链接在此:https://yuewen.cn/share/114631435266416640?utm_source=share&utm_content=web_linkcopy)
答案揭晓:
第一次通关共答题100道, 得分54分,很遗憾, 进阶失败
🐰 我们来小小总结下经验:
  • 跃问对于很多的鬼畜题很难答对,鬼畜对于AI来说理解难度确实不小。 就像你问各大模型弱智吧的题,同样很多是转不过弯来的。所以主要是选择更加容易找到答案的区域,题目不能太偏, 全是鬼畜那AI指定过不了。

  • 这一次全都是截图直接提问跃问,主要是想测试它的多模态能力,目前无法判断水平如何。因为它只回答了ABCD,无从判断是否它真的读到题目了。接下来我们调整下提示词,然后让它先分析题目,然后再结合答案作答。

第二次挑战

🐰 既然都来答题了,那我们今天的首要目的是通关。我估摸着对于ai来讲(甚至是对于人来讲),网络能搜到的、文史类的等等这一类的题相对来说会比鬼畜区更容易一些。那我们就再来试试看,这次我们选择 知识、文史、体育区 ,看在跃问的帮助下能否通关。
先给跃问一段提示词 Prompt ,然后我们再开始答题。
现在我要进行B站硬核大会员的升级测试,我每次会给你一道题,包含ABCD四个选项。你帮我分析题目,并从选项中获取正确答案。
如果你不确定或者是不会做,那就联网搜索之后找到答案再回复我。找不到答案不许回来。

注意:避免只回复abcd选项,因为需要你有充分的理由才能答对题。

(PS:目的是为了让AI好好审题,突然觉得自己好像个出题老师啊!)
这里我们看题目跟上面的有啥不同,同时加上提示词之后,看看跃问回答的能力边界在哪里。我们 主要从3个方面测试: 1️⃣ 图片识别能力,2️⃣ 逻辑分析推理能力,3️⃣ 搜索能力 ,其他能力本文暂不讨论。
我们来看几个回答:
最近世界杯正热火朝天,这不B站的 世界杯题目 说来就来:
1-20题(截图问答)直达链接: https://yuewen.cn/share/114634969110134784?utm_source=share&utm_content=web_linkcopy
🐰 根据跃问的回答,说明它能识别出截图中的内容,识图能力还可以;再看回答的内容还挺有理有据的,分析后给出了答案。
回答完了世界杯,来一道历史题:

21-40题(文字问答): https://yuewen.cn/share/114635310295793664?utm_source=share&utm_content=web_linkcopy
回答这道历史题的时候采用了 搜索能力 ,搜索信源这次出现了3类。但在21-40题的其他回答中,多数问题都采用了搜索,同样信源也不少。比如在第36题中,信源增加了搜狐、腾讯、虎扑社区、manuted.com 等等信息来源。
🐰 在答题过程中会发现,跃问多次用到联网搜索,同时还会排除法的做题思路,一定程度上增加了答案的精准性。
到了第42题开始,跃问的识图能力开始有所下降, 上传两次截图,均未识别出图中题目 ,更别提答对了。

41-60题(截图问答): https://yuewen.cn/share/114635510733201408?utm_source=share&utm_content=web_linkcopy

但它回答的是《阿甘正传》,识图上有很大的幻觉,第二次上传依旧未能识别出图中内容。
然而我直接用文字提问它,答案则精准很多。
可以说跃问的识图能力还是有待提升的,用肯定能用,但要 注意甄别答案
再来看一道 知识题
🐰 我们会发现跃问回答的有些模棱两可,瞎分析,根本就没分析出哪个不是昆虫。
我们再来看一道 关于AI的题目
61-80题(文字&图片混合问答): https://yuewen.cn/share/114635760810164224?utm_source=share&utm_content=web_linkcopy
🐰 这一道AI题,跃问逐个分析选项,看起来非常有条理,那么你答对了吗?
进入最后一道, 化学题
81-93题(文字&图片混合问答): https://yuewen.cn/share/114635940812914688?utm_source=share&utm_content=web_linkcopy
跃问先是分析来题目,然后再分析了每一个选项,最后做出的答案,分析过程看起来挺有道理。不过你还记得答案是什么吗?
从第42题开始,我就开始图片和文字轮番上阵了,以免它又出现幻觉,胡说八道,识别不出来。
第二次通关咱们做了93题就被迫交卷了,那咱们的题目分析也到这儿,来看看最终的战果如何。
最终得分64分 成功通关,升级为硬核会员!!

93题答对 64题 ,跃问险胜通关!

一些通关经验

两次测试终于通关了 ,这里分享一些小小的经验给想通关的你,不能说必保通关,但一次两次能通关还是可以的!







请到「今天看啥」查看全文