前沿: DeepSeek R1幻觉严重, 全球排名90位, 每7次有1次幻觉, 胡编乱造影响学术研究.

计量经济圈 · 公众号 · 财经 · 2025-02-18 10:31

正文

凡是搞计量经济的，都关注这个号了

邮箱： [email protected]

所有计量经济圈方法论 丛的code程序 , 宏微观 数据库和各种软 件都放在社群里.欢迎到计量经济圈社群交流访问 .

社群群友@奶牛交流说：“ 我感觉Deepseek R1的hallucination情况好像比GPT-o1和o3要严重好多。难道这就是文采飞扬的代价? ”

Hallucination就是大模型幻觉，瞎编内容，无中生有，还说得有板有眼。

关于@奶牛群友，参看1. 显著不显著的后背是什么, 非(半)参估计里解决内生性，2. 为啥面板数据回归中, 即使X对Y的解释程度很大, 但R-square一般都很小? 3. 多期DID中使用双向固定效应可能有问题! 又如何做平行趋势检验? 多期DID方法的最新进展如何?

为了判断这个事实，今天就看看全世界主流LLM大语言模型的幻觉排行榜。

Vectara团队研究出的 LLM大语言模型的幻觉排行榜

所谓幻觉排行榜，也就是胡编乱造的可能性排行榜。

如果不加以筛查和核实，将来很多论文、作业都是胡编乱造的东西，比如随意编撰的文献、理论、结果等等。

该公共 LLM 排行榜是基于 Vectara 的 Hughes 幻觉评估模型(https://huggingface.co/vectara/hallucination_evaluation_model）计算得出的。该模型评估 LLM 在总结文档时引入幻觉的频率。随着 Vectara 的模型和 LLM 的持续更新，他们计划定期更新该排行榜。

需要了解各个LLM幻觉程度，可以访问 Vectara 在 Hugging Face 平台上的幻觉排行榜](https://huggingface.co/spaces/vectara/leaderboard)。该排行榜的排名是基于 HHEM-2.1 幻觉评估模型计算的。

直接看结果吧，让人诧异的是，DeepSeek-R1的幻觉率达到了14.3%，这远高 于DeepSeek-V3的3.9%， 而Google Gemini-2.0-Flash-001、Google Gemini-2.0-Pro-Exp、OpenAI-o3-mini-high-reasoning三款幻觉率都低于1%、GPT-4幻觉率为1.4%、阿里的千问2.5为2-3%之间。

所以，很多学者觉得DeepSeek-R1比较直率，辛辣，敢于嘲讽和批判，实际上从另一个层面反映出其幻觉率比较严重，正如群友所说文采飞扬的代价。

这给经济管理学术研究增添了很多负担，需要逐一检查每段话的正确性，不然发表后会闹出不少笑话。

LLM幻觉排行榜如图所示，同时也给出了一个长表格。 其中显示，DeepSeek-R1在全球LLM大模型中幻觉非常严重，处于90多位。

今后可能要鞭笞胡编乱造的学术研究了。

*群友可直接在社群下载下面提到的各种科研软件。

关于神器 1. 神器! 统计和金融计算器, 词云和情感分析器强大到无敌！ 2. 找合适的英文期刊发表的神器! 亲测太好用了！ 3. 神器! SSCI分区及影响因子查询, 还有国人发表比例，4. 一数学神器诞生! 手写公式和符号, 竟免费转成LaTex ，5. 学术神器Endnote的最详尽使用方法，6. “各领域顶级外文期刊”菜单栏使用指南, 最新文章和目录浏览！ 7. NBER20个主题工作论文分门别类, Chronicle ，8. 不用必悔神器！按最全的细分领域推送该周最新最前沿的经济学工作论文！ 9. ABS星级期刊目录实时更新网址! 你总能找到最新的期刊分级目录！ 10. 分享直接免费使用的ChatGPT, 确实最强科研神器！ 11. 有用! 怎么一下子找到所有期刊正在征稿的special issues信息呢? 12. 你的论文对政策产生了多少影响? 现有一个免费神器给你下结论！ 13. 大神器! 直接显示中英文期刊的等级, 及该期刊在中国顶级大学的认可度！ 14. 必备神器: 各专业领域代表性大语言模型GPT与数据资源！ 15. 搞实证研究必备软件神器, 没有用上就趁早脱离学术

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

7年，计量经济圈近2000篇不重类计量文章，

可直接在公众号菜单栏搜索任何计量相关问题 ,

Econometrics Circle

数据处理 ： Stata | R | Python

前沿: DeepSeek R1幻觉严重, 全球排名90位, 每7次有1次幻觉, 胡编乱造影响学术研究.

正文

Vectara团队研究出的 LLM大语言模型的幻觉排行榜

请到「今天看啥」查看全文