凡是搞计量经济的,都关注这个号了
邮箱:
[email protected]
所有计量经济圈方法论
丛的code程序
, 宏微观
数据库和各种软
件都放在社群里.欢迎到计量经济圈社群交流访问
.
社群群友@奶牛交流说
:“
我感觉Deepseek R1的hallucination情况好像比GPT-o1和o3要严重好多。难道这就是文采飞扬的代价?
”
Hallucination就是大模型幻觉,瞎编内容,无中生有,还说得有板有眼。
关于@奶牛群友,参看1.
显著不显著的后背是什么, 非(半)参估计里解决内生性
,2.
为啥面板数据回归中, 即使X对Y的解释程度很大, 但R-square一般都很小?
3.
多期DID中使用双向固定效应可能有问题! 又如何做平行趋势检验? 多期DID方法的最新进展如何?
为了判断这个事实,今天就看看全世界主流LLM大语言模型的幻觉排行榜。
Vectara团队研究出的
LLM大语言模型的幻觉排行榜
所谓幻觉排行榜,也就是胡编乱造的可能性排行榜。
如果不加以筛查和核实,将来很多论文、作业都是胡编乱造的东西,比如随意编撰的文献、理论、结果等等。
该公共 LLM 排行榜是基于 Vectara 的 Hughes 幻觉评估模型(https://huggingface.co/vectara/hallucination_evaluation_model)计算得出的。该模型评估 LLM 在总结文档时引入幻觉的频率。随着 Vectara 的模型和 LLM 的持续更新,他们计划定期更新该排行榜。
需要了解各个LLM幻觉程度,可以访问 Vectara 在 Hugging Face 平台上的幻觉排行榜](https://huggingface.co/spaces/vectara/leaderboard)。该排行榜的排名是基于 HHEM-2.1 幻觉评估模型计算的。
直接看结果吧,让人诧异的是,DeepSeek-R1的幻觉率达到了14.3%,这远高
于DeepSeek-V3的3.9%,
而Google Gemini-2.0-Flash-001、Google Gemini-2.0-Pro-Exp、OpenAI-o3-mini-high-reasoning三款幻
觉
率都低于1%、GPT-4幻
觉
率为1.4%、阿里的千问2.5为2-3%之间。
所以,很多学者觉得DeepSeek-R1比较直率,辛辣,敢于嘲讽和批判,实际上从另一个层面反映出其幻觉率比较严重,正如群友所说文采飞扬的代价。
这给经济管理学术研究增添了很多负担,需要逐一检查每段话的正确性,不然发表后会闹出不少笑话。
LLM幻
觉
排行榜
如图所示,同时也给出了一个长表格。
其中显示,DeepSeek-R1在全球LLM大模型中幻
觉
非常严重,处于90多位。
今后可能要鞭笞胡编乱造的学术研究了。
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
7年,计量经济圈近2000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题
,
Econometrics Circle