本文通过引入GSM-Symbolic和GSM-NoOp两个新的基准数据集,揭示了大型语言模型在数学推理方面的脆弱性和对无关信息的敏感性,挑战了现有评估方法的可靠性,并指出其推理能力更接近于模式匹配而非真正的逻辑推理。
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师 |
宝玉xp · 转发微博-20241016022529 · 2 天前 |
爱可可-爱生活 · 【AgentStack:快速构建强大AI ... · 2 天前 |
爱可可-爱生活 · [LG]《IGNN-Solver: A ... · 3 天前 |
爱可可-爱生活 · 【In-Context强化学习精选:一个收集 ... · 5 天前 |
爱可可-爱生活 · [LG]《A ... · 1 周前 |
宝玉xp · 转发微博-20241016022529 2 天前 |
爱可可-爱生活 · 【AgentStack:快速构建强大AI Agent的工具,提供-20241015211751 2 天前 |
爱可可-爱生活 · [LG]《IGNN-Solver: A Graph Neural-20241015051638 3 天前 |
爱可可-爱生活 · 【In-Context强化学习精选:一个收集上下文强化学习(IC-20241013181924 5 天前 |
爱可可-爱生活 · [LG]《A noise-corrected Langevin -20241011055031 1 周前 |
钱皓频道 · “一战”赚了几十亿,她说世界上最好的生意有三种…… 7 年前 |
BestDesign · 还记得你玩的第一款电子游戏吗?这些盒子满满都是回忆|这个设计了不起 7 年前 |
销售与市场 · 未来10年,50%的人将失业 7 年前 |
车早茶 · 媳妇一句话让我重新审视车辆的“性价比” 7 年前 |
家教智慧 · 如果你的年龄在25-55之间,请你一定要看完这张图 7 年前 |