专栏名称: 玉树芝兰
思考教育、写作和互联网。 我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
目录
相关文章推荐
CDA数据分析师  ·  Deepseek来袭,数据分析师会失业吗? ·  15 小时前  
软件定义世界(SDX)  ·  数字化转型成熟度标准化研究与应用 ·  昨天  
天池大数据科研平台  ·  DeepSeek ... ·  昨天  
天池大数据科研平台  ·  马斯克20万块GPU炼出Grok-3,暴击D ... ·  2 天前  
51好读  ›  专栏  ›  玉树芝兰

如何提升 AI 学术检索的质量?

玉树芝兰  · 公众号  · 大数据  · 2024-10-09 16:45

主要观点总结

本文介绍了在使用AI工具如Perplexity进行学术资料检索时的技巧和提升效果的方法。通过对比基础使用和高级技巧使用后的结果,总结了限定信息来源、注意调查文献时间范围、利用提示词技巧和明确给出步骤和要求等关键点。文章还提到了将AI视为初级合作者,并给出了如何进一步提高AI学术搜索效果的建议。

关键观点总结

关键观点1: 限定信息来源

在学术资料检索中,限定信息来源是提高搜索效果的关键。选择权威的学术文献库进行搜索,能够获取更加准确和可靠的信息。

关键观点2: 注意调查文献的时间范围

在学术资料检索中,要注意调查文献的时间范围。选择最新的文献,能够获取更加前沿和有价值的信息。

关键观点3: 利用提示词技巧

通过利用提示词技巧,如角色定义、思维链等,可以让AI思考的节奏更加舒缓,启动大模型的「思维系统 II」,给出的结果更加成熟。

关键观点4: 明确给出步骤和要求

在利用AI进行学术检索时,明确给出步骤和要求,可以使AI答案的风格更加符合预期,提升AI学术搜索的效果。


正文

这些技巧使用前后,结果质量差距显而易见。

困惑

AI 能够帮助你检索资料,这你早就知道了。但从实际使用效果看,很多小伙伴并没有真正享受到 AI 检索资料的便利。甚至,还可能被 AI 「带到了沟里」,检索到过时的、错误的信息,或者错过了重要内容。从此,他们坚决抵制使用 AI 工具完成严肃任务。

AI 辅助检索,其实是有技巧的。如果你了解它们,在检索上便能做到「事半功倍」;反之,则很可能造成不必要的困扰。

学术写作中,资料检索尤其是个重要的工作环节。检索信息的质量,可能会显著影响你的作品水平。今天这篇文章,咱们就针对学术资料检索这个场景来谈谈,你该如何操作才能获得更好的检索结果。

工具

我们以 Perplexity 为例,来说明不同检索方式带来的效果差异。

Perplexity 你应该不陌生。因为我曾经 在这篇文章里给你做过介绍 。简要来说,它是一款基于 AI 的搜索和问答引擎,在 2022 年推出。基于自然语言处理技术,它可以通过网络搜索结果生成答案,并且在回答中引用来源出处。

Perplexity 支持不少主流模型。如果你订阅了 Pro 模式,可以使用 GPT-4o, Claude 3.5 Sonnet,Claude 3 Opus, Sonar Large 和 Sonar Huge 等。其中 Sonar Huge 是基于 Llama 3.1 405B 大模型。


除了对话之外,Perplexity 还支持绘图 ——Stable Diffusion XL, DALL-E 3, 甚至是 FLUX 都支持。

顺便说一句,最近我不少文章的题图和 视频的封面,都是用 FLUX 做的。这款模型生成画面(例如机器人)的一致性特别高。

你可以 使用我的邀请链接(https://perplexity.ai/pro?referral_code=GCB8DRJT)来注册 Perplexity,首月可以省下一半的钱。

有没有 Perplexity 替代品呢?

有。例如国内的秘塔 AI 搜索和国外的同类产品 You.com 等。但是 Perplexity 还是有自己的特色的。下面我们就来看看 Perplexity 开箱即用的搜索功能。

基础

打开 Perplexity, 你可以直接询问。例如我的问题是「生成式 AI 对教育的影响」。


你会看到,Perplexity 不是直接给出答案,而是先思考,把你的指令 拆解为若干的执行步骤 ,然后一一操作。在本例中,它会先查找生成式 AI 的相关信息,然后分析 AI 在教育领域的应用实例,最后总结积极与消极的影响。

Perplexity 首先提出「生成式 AI 在教育中的影响深远而全面,主要体现在以下几个方面:个性化学习、教学方式创新、教学评估与反馈、教育资源的生成与共享、以及挑战与风险等」。


然后,它针对上面每一个方面,分别介绍生成式 AI 的影响方式。

例如对「 个性化学习 」,Perplexity 提到:

生成式 AI 可以通过分析学生的学习数据和行为,为每个学生提供个性化的学习内容、路径和建议。具体的功能包括:

  1. 自动调整教学内容 :根据学生的学习进度和理解程度,自动调整教学内容的难度和深度。

  1. 推荐适合的学习资源 :为学生推荐最适合的学习资源和方法。

  1. 提供实时的智能辅导 :提供实时的智能辅导和答疑,及时解决学习中的问题。

  1. 生成针对性的练习题 :生成针对性的练习题和测试,帮助学生巩固知识点。

这种高度个性化的学习体验可以大大提高学习效率和效果,激发学生的学习兴趣。


仔细阅读后,我觉得这些回答还是比较靠谱的。其他几方面的内容,我们就不一一详细叙述了。


请你注意,每一个答案后面,Perplexity 都提供了来源链接,便于我们进行验证。

看起来,Perplexity 的最基础检索模式,似乎可以满足我们搜集资料的需求了。

是吗?

不然。Perplexity 默认模式下, 信息来源质量参差不齐 。使用久了,你会发现有些资料来自权威网站或相关的教育 AI 期刊;另一些则未经过滤,来自没有质量把控的自媒体或根本不知名的网站。倒不是说这些来源给出的信息质量一定低劣,而是作为普通用户着实不好区分。


如果你的目标是给自己的论文搜集资料,那这些信息来源尤其需要谨慎使用,否则难免会被误导。


要解决信息来源质量参差不齐的问题,该怎么办呢?

说起来也非常简单, 限定信息来源

学术


我将问题拷贝下来,在新的 Perplexity 对话框中粘贴后,点击 Focus 按钮,然后你会看到下图中的若干选项。


这里包括了多种常见信息来源,你可以 参考我在这篇文章中的介绍 。本例为学术资料搜索场景,所以建议你选择 "Academic",答案的信息来源将 仅限于学术文献

新的结果基本上都是来自 Semantic Scholar 这样的学术资料库。相较于无目的的大海捞针,这样获取的学术信息因为有同行评议制度的筛选, 质量更有保障

不过,你千万不要以为,选择一个 academic 来源,就算是完事大吉。

咱们来检视一下。你看文献《构筑 “人工智能 + 教育” 的生态系统》,发布日期为 2017 年。


另一篇《基于 Agent 的智能教学系统(AITs)的开发与研究》,发表年代为 2009 年。

问题来了,2009 年发表的论文,算不算新颖?

其他学科我不敢说。但是放在人工智能领域,2009 年的论文肯定不算新了。这个领域进展可谓「一日千里」。2009 年的时候,别说我们目前共同想象中的生成式 AI ,就连其雏形 GPT 第一代,甚至是更经典的深度学习模型,还大都没有影子呢。

如果我们希望检索足够新颖的论文,怎么办?

这就需要我们使用一些提示词技巧了。

提示

我的提示词是这样的:


你是一名优秀的科研助手,有十余年的工作经验,成果斐然。请根据我提出的问题,查询与之相关的最新英文资料。全面阅读资料的内容,一步步思考后用简体中文回答该问题。

注意事项:

1. 不要给出平庸的总 - 分 - 总式总结。我希望你从文献中找到能给读者带来信息增量与认知变化的观点、论断、数据和细节。

2. 不要着急,深吸一口气,仔细阅读、理解、反思,甚至找寻新的资料。当你感觉有信心已经找到合适的答案后,再开始回答。

3. 每段首先提出你的论点,接着给出论证过程,最后提供证据(最好包括翔实的数据)以及来源链接。

4. 资料引用要尽量保持多元化,不要轻易忽视任何信息来源。引用资料时,除了标准化的序号链接外,还需采用 APA 格式进行展示。

咱们来解读一下:

首先说「你是一名优秀的科研助手,有十余年的工作经验,成果斐然」。这是在 定义角色 ,赋予大模型一个专业人士的身份。

之后我要求「请根据我提出的问题查询与之相关的最新英文资料」。我们可能只想关注前沿研究,因为生成式 AI 真正的爆发实际上就是最近的事情,找那么久远的文献可能跟我们的目标有偏离。

咱们不仅要求大模型「使用最新的英文资料」,而且还指出「全面阅读资料的内容,一步步思考」。这个「一步步思考」的提示词技巧,叫做思维链(COT, Chain of Thoughts)。它让大语言模型先把一个问题进行拆解,然后反思,之后再执行。

我们在 之前的教程里讲过一个非常重要的观念 ,叫做「 欲速则不达 」。在我们跟大语言模型沟通的时候,最好 让它慢下来

我说「用简体中文回答该问题」看似有些多余。但如果不明确指明,Perplexity 看资料都是英文,有时会直接用英文来给你回答。

我特别指出,「我不想听任何陈词烂调,所以你不要给我一个平庸的总分总式的总结」。之所以这样要求,是刚才我们看到了,大模型的答案有固定的「AI 味道」—— 一上来先有观点,然后 123 列出分论点,之后在加上个「总的来说……」。

AI 味道越重,「人味儿」就越少。所以我们在和 AI 沟通的时候,更希望它「从文献中找到那些能给读者带来信息增量与认知变化的观点、论断、数据和细节」。

这里我还特别告诉它,「别着急,深吸一口气」。大语言模型当然没法「深吸一口气」,但它知道我其实是对它的思考节奏进行控制。更进一步,我希望它「认真地阅读、理解、反思」,还指出「当你感觉有信心,已经找到合适的答案后,再开始回答」。 这句话很重要 ,因为咱们希望大语言模型输出时候要审慎,不要盲目猜测我们的想法,之后出于迎合目的,输出不存在的内容。

然后我还规定了输出格式 —— 「每一段首先提出论点,之后给出论证过程,后面提供证据,包括详实的数据,以及来源链接」。这样文章段落风格更加符合论证要素。而来源链接的提供,更是为了进一步检验大语言模型的答案是否靠谱。

我提到「资料引用要尽量保持多元化,避免过度依赖单一来源」。这句话也很有用。因为如果不加指明,某些资料可能被大模型「薅羊毛」一般反复使用,而有些资料则被忽略掉,导致引用不均衡。

另外我还对 Perplexity 提出了文献引用的格式要求等。这些比较直白,此处就不再赘述了。

细心的你,可能已经发现,某些提示词的表达很全面,但是并不完全符合语法要求,甚至可能有错别字。别担心,大语言模型的容错能力相当强。只不过,一定要检查确认整体逻辑不能有错误,否则输出结果便会与你的设想「南辕北辙」了。

效果

提示词增强后,Perplexity 这次不仅查找了 Semantic Scholar,还包括了 arXiv (主流预印本平台)的内容。


它提到生成式 AI 正在深刻改变高等教育的评估方式,推动教育者重新思考传统评估的可持续性。







请到「今天看啥」查看全文