专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

目录

相关文章推荐

51好读 › 专栏 › 深度学习自然语言处理

LLMs 能够生成创新的研究想法吗？——一项针对 100 多位 NLP 研究者的大规模人类研究

深度学习自然语言处理 · 公众号 · · 2024-09-10 17:27

正文

论文：Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
地址：https://arxiv.org/abs/2409.04109

研究背景

研究问题 ：这篇文章探讨了大型语言模型（LLMs）在生成新颖研究想法方面的能力。具体来说，研究问题是 LLMs 是否能够生成与专家人类研究员相当的新颖想法。

研究难点 ：该问题的研究难点包括：评估 LLMs 生成的研究想法的创新性和可行性，招募和评估大量专家研究员，以及控制实验中的混杂变量。

相关工作 ：该问题的研究相关工作包括使用 LLMs 进行代码生成、自动评审生成、相关工作整理、实验结果预测和未来工作推荐等任务。然而，这些工作大多依赖于低成本的评估代理或快速的评估方法，而不是大规模的人类比较研究。

研究方法

这篇论文提出了一个实验设计，用于评估 LLMs 生成的研究想法的创新性，并与专家人类研究员的想法进行比较。具体来说，

LLM 生成想法 ：首先，构建了一个简单的 LLM 生成想法的代理，包括论文检索、想法生成和想法排序三个组件。

论文检索 ：使用检索增强生成（RAG）技术，通过查询语义学者 API 获取与给定研究主题相关的论文。
想法生成 ：提示 LLMs 生成多个候选想法，并使用去重和扩展技术生成最终的想法。
想法排序 ：使用公开评审数据训练一个 LLM 排名器，对生成的想法进行排序。

人类研究员生成和评审想法 ：招募了超过 100 名 NLP 研究员，让他们生成和评审想法。为了减少混杂变量的影响，标准化了想法的格式和风格，并匹配了主题分布。

盲评审 ：设计了详细的盲评审表，包括新颖性、兴奋度、可行性和预期有效性四个评分维度。评审者对每个想法进行评分，并提供自由文本反馈。

实验设计

数据收集 ：招募了 49 名专家研究员生成想法，并收集了 298 条独特评审记录。
实验设计 ：实验包括三种条件：人类想法、AI 生成的想法和 AI 生成的想法经过人类重新排序。所有想法都遵循相同的主题描述和模板。

样本选择 ：从 71 个机构的 1426 名 NLP 研究员中招募了 49 名专家研究员生成想法，并从 32 个机构的 79 名研究员中招募了 79 名专家研究员进行评审。
参数配置 ：LLM 模型使用 Claude-3-5-sonnet-20240620，检索时每次生成最多 20 篇论文，总共生成 4000 个候选想法。

结果与分析

主要发现 ：在所有统计测试中，AI 生成的想法被认为比人类专家生成的想法更具新颖性（p<0.05），但在可行性方面略逊一筹。

请到「今天看啥」查看全文

推荐文章

半导体照明网 · 看好体育产业春天来临，照明企业扎堆体育营销

7 年前

钱币圈 · 以泉友名义告诉你一一相约浙江泉友会衢州大会的N个理由

7 年前

编织人生 · 她把香蕉涂在脸上，竟然变成了这样......神奇！

7 年前

参考消息 · 声音 | 俄媒：当“灵魂”遇上中国“胃”，澳大利亚还会摇摆多久？

7 年前

首席娱乐官 · 网红扎堆电影节VS小鲜肉登顶视帝，从“戛纳”与“华鼎”看游走其间的中国影视众生相

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!