专栏名称: 玉树芝兰
思考教育、写作和互联网。 我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
目录
相关文章推荐
CDA数据分析师  ·  【干货】常用的6种数据分析方法 ·  5 天前  
大数据文摘  ·  斯坦福最新理论研究:RLHF中奖励过度优化现 ... ·  1 周前  
大数据与机器学习文摘  ·  谢尔盖布林:谷歌不敢用Transformer ... ·  6 天前  
51好读  ›  专栏  ›  玉树芝兰

如何用 Web 界面 AI 工作流提升科研写作效率?

玉树芝兰  · 公众号  · 大数据  · 2024-09-15 09:31

正文

(注:本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费


更易用,更高效。



痛点


作为一名研究生导师,我深深体会到学生在撰写论文时拖延症的严重程度。他们往往打开一个空白的 Word 文档,对着屏幕发呆。偶尔写下几个字,旋即删除,继续陷入沉思。

问题的关键,是在你开始写作论文(或者其他类型严肃长文稿)时,第一稿应该迅速完成——这就需要你准备大量的预制内容。在这个阶段,你完全不必考虑语言风格、错别字或格式等问题。写,快写,大量地写,迅速将想要表达的内容填满页面,这才是最重要的。

这说起来容易做起来难。当你想到后续还需要将这些内容重新整理、风格化改写、调整语序,并补充大量的参考文献时,精神压力之大,恐怕难以轻易释怀。

此时你需要的是一个助手。当你在前方用大量快速积累的文字「开疆拓土」时,你希望有个助手帮你完成琐碎的后续工作:将内容转化为学术语言,自动分析并纠正标点符号,理顺逻辑,补充相关的研究文献……

但是,作为一名研究生,雇佣这样一个人类助手价格不菲,许多同学可能无法承受。

幸运的是,我们有 AI 啊。

今天这篇文章,咱们就来聊聊如何利用 AI 工作流,帮助你快速地将脑海中的想法表达出来,凝练成初稿;如何将自己之前积累的内容进行学术化的风格改写;以及如何根据你想要调研的主题,快速获取最新的研究进展,帮你的论文综述添砖加瓦。这些功能的目标,自然是帮你最快解决初稿,然后好整以暇,用足够轻松的心态,来进行后续的「慢改」细活儿。

我们要用 AI 来完成这些任务,那就需要一款合适的趁手工具。这个工具的基础,其实你并不陌生。我在之前的文章中,多次为你介绍过这个受 fabric 启发,我自行开发的 Python 版本 AI 工作流

只是,不少小伙伴还是不太适应 它的命令行运行方式,所以我 利用 Cursor 快速给它加了一个 Web 界面。

下面,咱们就先来看看这款改造后的工具,如何能帮到你。


Web 界面

当你打开我们新 AI 工作流应用,可以看到它 Web 界面的样子:

你可以看到,界面非常清爽。在初始状态下,只有一个下拉菜单、一个输入框和一个执行按钮。在下拉菜单中,你可以选择我们目前预制的各种 AI 工作流:

输入框是我们直接输入想要处理内容的地方。它可以是你想要研究的主题,可以是一段语音识别后尚未完善的文本,也可以是你想要翻译的内容。之后,你就可以使用下面的 Process 按钮来执行对应的工作流。

例如,我们可以将一段中文文本翻译成英文:


它使用的是吴恩达老师的反思式三步翻译法,也就是先进行初步翻译,然后让模型自己审视翻译结果,得出修改意见,再参考反思得来的修改意见,进行更细致的翻译。具体的步骤 请参考这篇文章

很快,你就能看到翻译的结果了:

工作流执行速度主要取决于你选用的模型。因为使用了 Openrouter ,我们可以跟吃自助餐一样,选择自己喜欢的模型作为工作流某一步骤的处理节点。这些都在 config 目录下的 yaml 文件里定义,下面有详细解释。

有的模型推理速度非常快,例如 Groq;而有的模型执行起来可能速度较慢,尤其是那些参数量非常庞大的模型,例如 Claude 3 Opus 等。

接下来,我们就来讲讲如何使用这款工具,来解决前面提到的撰写学术论文初稿时的问题。咱们先从快速输入开始讲起吧。


输入

我 一直喜欢使用语音输入来快速录入内容。这种方法不仅高效,而且让我能够将注意力更多地集中在思考上,而不必受到打字速度局限。

最近,我高频使用一款名为 Wispr Flow 的应用(网址 flowvoice.ai),其语音输入速度可以媲美 macOS 原生语音识别功能,准确率更高。

早在今年三月底,Wispr Flow 的创始人 Tanay Kothari 就与我联系,邀请我试用他们的产品。我俩进行了语音会议。Tanay 现场演示了一些功能,我也向他反馈了相关的建议。

不过在过去的几个月里,我在电脑端其实更多地使用 SuperWhisper 这款语音识别工具。因为彼时 Wispr Flow 的稳定性还有待提升。

不过最近我愈发觉得 SuperWhisper 的执行效果不够令人满意,处理速度有些迟缓,而且还发生过几次录入内容丢失的情况。于是我突然想起 Wispr Flow 。


再次启用后,我发现 Wispr Flow 已经推出了 官方网站,可以直接下载 macOS 版本。

安装之后,开启任意编辑器界面,你只需按住 Function 键(Fn 键),WisprFlow 就会自动开始听写,抬手停止输入,并以极快的速度将内容输入到当前应用环境中。

WisprFlow 还提供了自定义常用词汇表的功能,可以有效避免诸多识别错误。这个功能很有用,特别是对专业术语或特定领域词汇(例如你亲朋的名字等)而言。

尽管语音输入非常方便,但录入的内容往往较为粗糙,例如包含许多冗余的口头语等。因此,我们需要对其进行整理和优化。而咱们的工作流里,就已经集成了这样的功能。


你看,这是使用 Wispr Flow 在 Roam Research 中语音录入快速形成的一些内容。


我曾经有一段时间不大爱用 Roam Research 来记笔记,只把它当成了计划安排工具。其原因就是每次从大纲到文本,总有许多「粗活儿」要做,让人很烦恼。例如你可以看到,这里语音识别的结果有很多标点符号缺失;还有一些识别错误 —— 例如,「吴恩达」 被错误识别成了 「温达」 等。

但现在,这都不要紧了。我把这一段内容直接交给了我们的工作流 expand_draft_note

这是转换后形成的结果。

为了让你看得清楚,我将其放到 Heptabase 中,连图片也显示出来。

图中红框位置,可以看到标点符号都已经正常添加,起承转合更加顺畅。「吴恩达」 三个字被正确更正,而且原本提到的某些专有名词(例如 Groq 等)也给出了必要的解释。

这样的内容,作为一张卡片使用,融入到你的文章或报告里,是不是更加方便了呢?


风格


我想你很快发现了问题:

王老师,这不行啊。你这润色之后的快速输入内容,口语化相当严重。这没法放在论文或者研究报告里啊!

你的观察非常准确。

风格转换是写作中的一项重要技巧。书面写作分为不同的类型。我平时撰写的博客文章和学术论文显然是两种不同的风格。

咱们来看个例子。这是输入的内容,来自于我的星球专栏文章。

你应该有印象,这是 我在 8 月 1 日与你分享的那篇。这篇文章谈及使用我编写的 Python AI 工作流来搜集相关信息,然后将其自动撰写成文献回顾的形式。

这篇文章谈的问题是学术的,但风格非常口语化。因为我希望用最生动详细的方式向你讲解其工作原理,并告诉你如何使用。咱们就以它为例,来看看风格转化的工作流原理。