【MME-CoT:为多模态大模型的推理能力提供全面评估的基准测试。亮点:1. 覆盖6大领域,包括数学、科学、OCR等,全面评估模型能力;2. 提出3项新指标,深度剖析推理质量、鲁棒性和效率;3. 揭示模型在视觉推理任务中的表现,助力多模态模型发展】
'MME-CoT: Benchmarking Chain-of-Thought in LMMs for Reasoning Quality, Robustness, and Efficiency'
GitHub: github.com/CaraJ7/MME-CoT
#多模态大模型# #推理评估# #AI基准测试# #AI创造营#
'MME-CoT: Benchmarking Chain-of-Thought in LMMs for Reasoning Quality, Robustness, and Efficiency'
GitHub: github.com/CaraJ7/MME-CoT
#多模态大模型# #推理评估# #AI基准测试# #AI创造营#