专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

2024年，深度学习，你心目中的top10算法是什么？

3DCV · 公众号 · · 2024-09-12 11:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

来源：https://www.zhihu.com/question/638660013

作者：小满哥

个人名单，排名不分先后：

1、AlexNet （深度学习复兴的源头）

2、GAN（左右互博的思想到现在依然很惊艳）

3、Attention （提出注意力机制并应用于NLP）

4、ResNet （残差思想简洁有效，广泛应用于深度学习各个领域，毋庸置疑的top10）

5、UNet (对称编解码器架构，泛化性能很好，广泛应用于医疗遥感以及AIGC领域)BatchNormalization （有效加快模型收敛并防止过拟合）

6、YOLO系列（端到端目标检测模型，简洁优雅高效，落地最广泛的目标检测模型）Transformer （同样毋庸置疑，大模型基石）

7、GPT系列 (基于Transformer解码器的大语言模型，掀起LLM浪潮的领航员)

8、StableDiffusion （图像生成里程碑，与LLM并列的AIGC模型）

以上是个人排名，仅限于本人涉足的领域，存在一定主观性，很难达到全面客观的标准。还有很多非常好的算法也可排进特定领域top10，候选名单： VGG，Seq2seq，Faster-RCNN，Mask RCNN，Bert，ViT，Swin Transformer，DALLE，CLIP，GCN，GAT，RoPE等，这些都是非常经典的算法，经过了后续研究实践的考验。

还有一些很有创新性，有希望进入特定领域top10候选的作品，例如： DiT, RWKV，Mamba，LORA等

作者： theigrams

实际效果不一定是最好的，但背后的理论肯定是优美而深刻的，以下是我喜欢的 Top10：

Word2vec

第一次接触机器学习时，看到书中的例子「中国-北京 = 法国-巴黎」，感觉整个人的认知都被颠覆了，从此踏进了机器学习的深坑。

Variational Autoencoder (VAE)

变分推断与自编码器的完美融合，与传统自编码器相比，通过随机采样的方式强迫特征网络学到的编码具备局部空间结构，这种范式对整个生成模型领域产生了深远的影响。

Generative Adversarial Network (GAN)

超脱于传统 Encoder-Decoder 结构，走出了一条全新的路，将 min-max 优化问题转化为生成器网络和判别器网络的对抗学习过程。

Graph Convolutional Network (GCN)

这里指的是广义的图卷积网络，一共包括 Spectral Networks and Locally Connected Networks on Graphs，Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering，Semi-Supervised Classification with Graph Convolutional Networks 三篇论文。

Spectral CNN 是开山之作，基于谱图理论首次将卷积推广到了图网络。

Chebyshev Spectral CNN 用拉普拉斯矩阵的Chebyshev多项式来代替滤波函数，极大减少了计算量。 GCN 则是集大成者，继续做减法，最终将图卷积浓缩成一个矩阵，优美到了极致。

可惜自此之后的 GNN 再无图卷积，只剩消息传递。

PointNet

用神经网络处理点云的开山之作，解决了点云数据的无序性和不规则性，从此三维视觉进入深度学习时代。

Neural Radiance Field (NeRF)

用神经网络学习空间中每一点的光场，然后用体渲染积分成图像，简直是暴力美学。虽说三维视觉领域又多了个新方向，但搞这个掉头发很快。

Deep Q-Network (DQN)

毋庸置疑的经典，将 Q-learning 的天赋带到深度学习，产生了很好的化学反应，强得不可思议。

AlphaGo

蒙特卡洛树搜索+深度学习，击败柯洁算得上是 AI 领域的历史性时刻。

Proximal Policy Optimization (PPO)Schulman

在 TRPO 中引入了信赖域来缓解学习不稳定的问题，但是计算开销太大，于是他又将其简化成了 PPO，显然他觉得这种改进工作贡献不大，甚至都没投论文，就挂在Arxiv上。没想到的是 PPO 太好用了，简单稳定高效，搞应用的人手一个，甚至 ChatGPT 也用的 PPO。

Neural Tangent Kernel (NTK)

解释了神经网络（在无限宽的情况下）的训练为什么能稳定收敛，为什么收敛性与网络的初始化无关，而与网络的结构有关。

作者：兵临城下

0 AlexNet: 我觉得是卷积神经网络最具代表的工作；

1 ResNet: 至少不比之前差；

2 Transformer: Attention is all your need;

3 GAN：用模型打败模型；

4 LSTM：时间序列最广泛典型的网络，三个门的设计；

5 GPT: Decoder-Only，第一个大模型时代标志性网络；

6 BERT： Encoder-Only，你的模型会做阅读理解吗？

7 Diffusion：开启了文生图的时代；

8 YOLO: You Only Look Once;

9 DiT: 最开始放的gemini，但是最近被DiT的算法惊艳到了，Transformer作为Block代替之前的U-Net，解决了困扰了我很久的问题，就是生成式模型选用transformer还是diffusion系列，scale和Shift又可以保证视频生成的扩散，目前看到的算法里好像是降龙十八掌的最后一招了；

有很多精巧的想法如LoRA, FastSpeech, FastText, Word2Vec, RLHF，甚至于VGG, VAE，U-Net这类典型网络本应该出现在前十，但排名带有一些主观色彩，期待未来五年能够让我这个主观色彩的榜单全部更换。

这里给大家推荐一门我们最新的课程 《国内首个面向具身智能方向的理论与实战课程》 ：

2024年，深度学习，你心目中的top10算法是什么？

正文

作者：小满哥

作者： theigrams

作者： 兵临 城下

请到「今天看啥」查看全文

作者：兵临城下