专栏名称: 爱可可-爱生活

知名互联网资讯博主北邮PRIS模式识别实验室陈老师

目录

相关文章推荐

新智元 · 微软Muse秒生游戏登Nature，10亿级 ... · 17 小时前

爱可可-爱生活 · 【[15星]OctoTools：一个无需训练 ... · 19 小时前

黄建同学 · Andrej Karpathy ... · 昨天

AI前线 · 20万卡吞金兽 Grok 3 ... · 2 天前

量子位 · 马斯克“地表最强”Grok ... · 2 天前

量子位 · 马斯克“地表最强”Grok ... · 2 天前

51好读 › 专栏 › 爱可可-爱生活

【MME-CoT：为多模态大模型的推理能力提供全面评估的基准测试-20250216133710

爱可可-爱生活 · 微博 · AI · 2025-02-16 13:37

正文

2025-02-16 13:37
本条微博链接

【MME-CoT：为多模态大模型的推理能力提供全面评估的基准测试。亮点：1. 覆盖6大领域，包括数学、科学、OCR等，全面评估模型能力；2. 提出3项新指标，深度剖析推理质量、鲁棒性和效率；3. 揭示模型在视觉推理任务中的表现，助力多模态模型发展】
'MME-CoT: Benchmarking Chain-of-Thought in LMMs for Reasoning Quality, Robustness, and Efficiency'
GitHub: github.com/CaraJ7/MME-CoT
#多模态大模型# #推理评估# #AI基准测试# #AI创造营#

请到「今天看啥」查看全文

推荐文章

新智元 · 微软Muse秒生游戏登Nature，10亿级画面练出最强AI！千亿游戏市场重洗牌

17 小时前

爱可可-爱生活 · 【[15星]OctoTools：一个无需训练、易于扩展的智能工具-20250220141238

19 小时前

黄建同学 · Andrej Karpathy 关于大模型训练三个阶段，通俗易-20250220081355

昨天

AI前线 · 20万卡吞金兽 Grok 3 炸裂登场，卡帕西大神亲测：性能超过DeepSeek R1！马斯克：短期不开源

2 天前

量子位 · 马斯克“地表最强”Grok 3炸场，竞技场首超1400分

2 天前

量子位 · 马斯克“地表最强”Grok 3炸场，竞技场首超1400分

2 天前

格上财富 · 努力和辛苦都很廉价，训练自己的眼光和格局才是正经事

7 年前

漫心情 · 一个优秀女人该有的习惯

7 年前

每日经济新闻 · 电商绞杀实体店，刚刚上演最惨烈一幕，沃尔玛成悲剧主角

7 年前

半导体行业资讯 · 中国芯片产业换道超车的可能：碳基芯片

7 年前

央视财经 · 【紧急】超100万网友都在转！除了打110，还可以这样报警！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!