专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

怎么样才能想出一个work的idea？

计算机视觉工坊 · 公众号 · · 2024-12-09 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

内容来自知乎，「计算机视觉工坊」整理，如有侵权请联系删除 https://www.zhihu.com/question/4877094455

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

简单的方法是A+B

我数学老师曾讲过，科研无非新瓶装旧酒，

或者旧瓶装新酒LLM上验证过的想法，直接copy paste到CV/audio/医疗/心理学，基本是稳的。如果能再加一些领域的专业知识，就能过审稿人这关

同时，它也是最有可能对社会产生正向影响的，不要有负罪感

更好的办法是不带目的的玩模型，要有玩心。

拿个LLM过来，先把prompting玩明白了，然后搭一堆API Agent，什么写个谈恋爱copilot，机器人大战繁体字，测个bias，玩玩社交媒体账号，等等玩的过程中建立手感，再多读相关论文，然后把玩了啥记录一下就是顶会论文了。

纯这么玩去年随便发论文，今年应该prompting没法发了。Agent还是可以的，而且机会越来越多。

进阶半步开始玩微调，拿各种奇怪的数据微调模型，观察它的行为。比如合成一堆小语种数据，或者编一个新的逻辑语言，玩玩幻觉，搞搞RLAIF。今年这类论文应该好发，主要post-training有时候一个场景能发一篇论文，做不完的

再之后，甚至可以考虑玩预训练调模型架构。不过穷人还是算了，卡多这么搞。

把你这个“看了几篇论文”变成“看了几百篇论文”就可以了。

但我感觉我刚做科研也有时候能想到靠谱的想法

有理论保证的东西，有时可以预知结果。我最近这篇也是，当时只是不确定能加速3-10%，但心里知道一定有加速（最后跑出来5%）

参考隔壁的说法，我再演绎一下。

第一层: 看论文—＞灵感乍现—＞理论分析—＞实现idea—＞验证idea—＞优化——＞work——＞写论文——＞发表。