专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

清华唐杰新作WebGLM：参数100亿、主打联网搜索，性能超OpenAI WebGPT

FightingCV · 公众号 · · 2023-06-23 20:46

正文

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→ FightingCV交流群

清华唐杰团队的新作来了：

WebGLM，一个参数100亿的联网问答聊天机器人（论文入选KDD2023）。

你可以问它任何问题，然后它将列举出网上（例如维基百科、相关官网）相关的文章链接，整理出答案。

比如：

ChatGPT的核心技术是什么？

或者:

谁提出的Music Transformer？它的原理是什么？

再或者：

原神3.5版本怎么样？

没有高薪工作，怎么在一线城市生活？（手动狗头）

……

它都能给出有理有据的回答。

据介绍，在性能对比测试中，WebGLM的水平已经高于OpenAI 135亿参数的WebGPT，在人类评估中，甚至与1750亿参数的模型不相上下。

那么，它是如何训练的？

可以上网的清华系WebGLM

据介绍，WebGLM的目标是通过Web搜索和检索功能，增强预训练大语言模型，同时可以进行高效的实际部署。

为此，作者基于三种策略进行开发。

首先是大模型增强检索器。

它主要是用于增强模型相关网络内容的检索能力，在给定查询的情况下查找相关引用，以便后面更好地准确回答问题。

它有两个阶段：粗粒度web搜索和细粒度LLM增强密集检索。

其次是自举生成器。

它利用GLM（比如清华之前发布的双语开源预训练模型GLM-130B）的能力为问题生成回复，提供详细的答案。

利用该生成器，作者得到WebGLM-QA——一个LLM自举引用和长程的QA数据集。

它通过上下文学习等策略进行清洗和过滤，最终包括45k的高质量过滤样本和83k的噪声样本。

WebGLM的backbone就是一个在该数据集上训练的GLM模型。

最后是基于人类偏好的打分器。

它通过优先考虑人类偏好而非昂贵的专家反馈来评估生成回复的质量，确保系统能够产生有用和吸引人的内容。

以上三大组件最终按顺序形成WebGLM的pipeline：

可以看到，正好三个模块，对应前面介绍的三部分，其中：

LLM增强检索器会将前五个最相关的页面作为参考源，让自举生成器生成多个答案，最终打分器选出最可能符合人类偏好的那一个作为最终输出。

性能超OpenAI WebGPT

除了WebGLM本身，唐杰团队此次还提出了一个网络增强问答系统的评估标准，评估对象既包括参考文献，也包括最终回答。

其中前者衡量相关性、信息密度、真实性（无事实错误）、毒性（不含暴力色情等信息）和社会偏见程度这5个维度；后者则衡量流畅度、正确性、引用准确性、客观性和冗余程度。

他们用WebGPT（来自OpenAI，基于GPT-3进行微调）演示网站提供的272个问题进行对比评估，并招募了15个学历为硕士的志愿者打分。

最终结果如下：

（“Rel.”、“ Den.”……分别对应上面说的10个指标。）

可以看到，尽管WebGLM的搜索结果略逊于WebGPT-175B，但远好于Perplexity.ai和WebGPT-13B（左边的参考文献评估）。

值得一提的是，WebGLM检索过程只使用了一些传统的基于单词的算法和两个累计参数量不超过300M的Contriever。

此外，WebGLM在计算性能和时间消耗方面也明显优于WebGPT-13B、并与175B不相上下。

而在最终结果方面，WebGLM在流畅度、真实性和冗余度方面均获得最高得分，正确性指标上则接近WebGPT-175B，远高于Perplexity.ai和WebGPT-13B。

作者表示，这表明WebGLM可以以更低的成本获得更高的性能。

部署与训练

WebGLM发布即开源。

要想部署它，需要从SerpAPI官网获得一个密钥，用于在搜索过程中获取搜索结果。

检索器的权重可从清华云上下载。

运行该模型的方式有两种：一是命令行界面，二是Web服务形式，并且包含WebGLM-2B和WebGLM-10B两种可选模型。

你也可以自己训练WebGLM，官方已提供好了生成器和检索器的训练数据供下载～

论文地址：
https://arxiv.org/abs//2306.07906

GitHub主页：
https://github.com/THUDM/WebGLM

往期回顾

基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！

ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！

ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索