专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
人工智能与大数据技术  ·  没日没夜创业“卷”了20个月、胖了30斤,A ... ·  2 天前  
数据派THU  ·  【博士论文】基于车载3D ... ·  5 天前  
IDC圈  ·  《2023-2024年中国IDC行业发展研究 ... ·  5 天前  
玉树芝兰  ·  Recraft AI 绘图,好玩儿吗? ·  5 天前  
CDA数据分析师  ·  【干货】6大行业,12种实用数据分析模型和方法! ·  1 周前  
51好读  ›  专栏  ›  大数据文摘

破例两篇!NeurIPS时间检验奖颁给了Ian的GAN、Ilya的Seq2Seq,实至名归

大数据文摘  · 公众号  · 大数据  · 2024-11-30 12:00

正文

大数据文摘受权转载自夕小瑶科技说
作者 | 海野
今年NeurIPS时间检验奖破例颁给了两篇论文!
分别是大名顶顶的Ian的GAN和Ilya的Seq2Seq。
NeurIPS时间检验奖(Test of Time Awards)的颁奖标准是:
10年前在NeurIPS上发表、对研究领域产生了重大影响、经得起时间考验的论文。
今年可谓是有史以来第一次,时间检验奖居然同时颁给了两篇论文:
  • Generative Adversarial Nets(生成对抗网络,又称GAN)
  • Sequence to Sequence Learning with Neural Networks(Seq2Seq)


官方自己也承认:
今年,我们破例颁发了两篇时间检验奖,因为这两篇论文对整个领域的影响力都不可否认。
Generative Adversarial Nets,是生成模型领域最重要的理论基础之一,截至颁奖时已被引用超过85000次。其作者团队包括Ian Goodfellow、图灵奖得主Yoshua Bengio等众多知名AI大佬。
Ian Goodfellow的名字能被世人熟知,就是通过这一篇GAN论文。他本硕师从吴恩达,就读于斯坦福大学,并跟随Yoshua Bengio在博士阶段钻研机器学习领域。工作后辗转OpenAI、谷歌、苹果等多家科技公司,2022年离开苹果后,至今在Google DeepMind担任研究科学家。
Sequence to Sequence Learning,是时任谷歌研究员的Ilya Sutskever, Oriol Vinyals, Quoc V. Le共同完成的论文,奠定了RNN广泛应用于语言任务的基调,已被引用超27000次。
其中Ilya是连续第二年得奖了。去年的NeurIPS时间检验奖颁给了他的里程碑论文word2vec。
简单介绍一下这两篇传世经典:

Generative Adversarial Nets



GAN的主要内容是,提出了一个通过对抗过程估计生成模型的新框架。
这个新框架需要同时训练两个模型:捕获数据分布的生成模型 G(Generator),以及“估计样本来自训练数据,而不是G的概率”的判别模型 D(Discriminator)。
G的训练过程是使D犯错的概率最大化。就像生产假货的人和鉴定真伪的人的博弈一样:G负责生产仿制品(学习如何根据随机噪声生成逼真的数据);而D负责鉴别真假(学会辨别真实的数据和G生产的数据)。
G和D相互博弈,相互竞争,两者都可以在这个博弈的过程中不断进步、优化。
最终的结果是,生成模型G能够强大到产生与真实数据几乎完全相同的数据,使得判别模型D无法辨别真伪,这样GAN就算训练成功。
经过这样的对抗训练之后,从生成器网络中提取的样本如图所示。这些样本突出了对抗框架的潜力,GAN也在视觉数据和其他领域的各种应用中都产生了深远影响。


现在大家熟悉的AI图像修复、AI改图像风格等,都有GAN的功劳。
论文地址:https://arxiv.org/pdf/1406.2661

Sequence to Sequence Learning



Seq2Seq提出了一种通用的序列端到端深度学习方法,对序列结构进行了最少的假设。解决了深度神经网络(DNN)无法处理将长短不定的序列端到端映射的问题。其最大的应用领域就是机器翻译。
深度神经网络(DNN)是极其强大的机器学习模型,但DNN要求输入和输出是已知且固定的,只能应用于其输入和目标可以使用固定维度向量进行合理编码的问题。
而Seq2Seq模型基于递归神经网络(RNN)提出了解决之法,它包括两个长短期记忆网络(Long Short-Term Memory,又称LSTM),一个是编码器(“encoder” LSTM),将输入序列映射到固定维度的向量;另一个是解码器(“decoder” LSTM),从向量中解码出目标序列。
也就是说,Seq2Seq模型可以用于可变长度的输入和输出序列的任务了。


根据实验结果,在WMT'14数据集的英语到法语翻译任务中,LSTM生成的翻译在整个测试集中获得了34.8的BLEU分数,其中LSTM的BLEU分数因词汇外的单词而受到惩罚。


此外,Seq2Seq模型在长短句处理方面极其强大。
在同一数据集上,基于短语的SMT系统的BLEU分数为33.3。当使用LSTM对上述SMT系统产生的1000个假设进行重新排序时,其BLEU得分为36.5,已经与之前在该任务中的最好成绩很相近了。


随着当下大语言模型的快速发展,AI和应用的范式都发生了转变。而Seq2Seq的提出,则是为该领域工作奠定了基础,也是后来编码器-解码器架构能出现的前提,激发了后来基于注意力机制研究的改进,才让今天的基础模型研究能有如此盛世。
论文地址:https://arxiv.org/pdf/1409.3215

两位大能现状:一人创业、一人对抗病魔


NeurIPS官方还表示,两篇时间检验奖的作者将在当地时间12月13日(北京时间12月14日)进行简短的Q&A。
至于为什么是简短的Q&A,因为这两位大神都非常忙:
Ilya忙着创业SSI。
Ian则是忙于对抗病魔:


希望大佬能早点好起来~
via https://blog.neurips.cc/2024/11/27/announcing-the-neurips-2024-test-of-time-paper-awards/ 


租售GPU算力
租:4090/A800/H800/H100
售:现货H100/H800

特别适合企业级应用
扫码了解详情☝


点「在看」的人都变好看了哦!