专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【[99星]Ollama模型直链生成与安装工 ... ·  8 小时前  
黄建同学  ·  DeepSeek的研究使得模型训练变得越来越 ... ·  15 小时前  
爱可可-爱生活  ·  【Stanford CS236 Deep ... ·  2 天前  
机器之心  ·  AI「视觉图灵」时代来了!字节OmniHum ... ·  2 天前  
51好读  ›  专栏  ›  新智元

整合海量公共数据,谷歌开源AI统计学专家DataGemma

新智元  · 公众号  · AI  · 2024-10-02 15:01

主要观点总结

新智元报道,谷歌推出了大型开源公共统计数据库Data Commons及其基于该数据库的大模型DataGemma。该文章探讨了如何使用LLM处理统计数据的问题,包括LLM如何决定何时从外部获取信息以及如何处理多种数据源等。此外,文章还介绍了Data Commons数据共享涉及的两种创新方法,以及将LLM与Data Commons连接的两种不同方法:检索交错生成(RIG)和检索增强生成(RAG)。文章最后给出了对这两种方法的事实准确性评估。

关键观点总结

关键观点1: 谷歌推出的大型开源公共统计数据库Data Commons包含来自各种可信来源的大量统计数据。

Data Commons是一个庞大的开源公共统计数据存储库,包含来自联合国、疾病控制与预防中心、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等的数据。

关键观点2: DataGemma是解决LLM在处理统计数据时产生幻觉的一个新模型。

谷歌推出的DataGemma模型能够将LLM与Data Commons数据库连接起来,通过处理统计数据来减少或避免LLM产生幻觉。

关键观点3: 使用LLM处理统计数据面临三个主要问题。

首先,LLM必须决定何时从外部获取信息;其次,需要决定从哪个外部源查询所需的信息;最后,一旦明确了需要哪些外部数据,LLM需要生成一个或多个查询来获取这些数据。

关键观点4: Data Commons数据共享涉及两项创新。

首先,研究人员访问大量公开可用的数据集并进行规范化,形成一个包含所有数据的通用知识图谱。其次,研究人员使用LLM创建一个自然语言界面,允许用户用自然语言提出问题并通过图表等方式探索庞大的数据库。

关键观点5: 介绍了将LLM与Data Commons连接的两种不同方法:检索交错生成(RIG)和检索增强生成(RAG)。

这两种方法都是将LLM与数据库连接起来处理统计数据的方式。其中,RIG方法通过将LLM微调以生成自然语言数据共享查询,并将查询转换为结构化数据查询来检索答案。而RAG方法则使用LLM生成与用户查询相关的自然语言查询,并通过Data Commons的自然语言接口获取相关的表。


正文



新智元报道

编辑:alan
【新智元导读】 近日,谷歌推出了自己筹划已久的大型开源公共统计数据库,以及在此基础上诞生的大模型。——「AI统计学专家」能解决幻觉吗?

准确的统计数据、时效性强的信息,一直是大语言模型产生幻觉的重灾区。

知识是现成的,但学是不可能学的。

并非此身惰怠,只因现实太多阻碍。

对于这个问题,谷歌在近日推出了自己筹划已久的大型数据库Data Commons,以及在此基础上诞生的大模型DataGemma。

论文地址:https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf

Data Commons是一个庞大的开源公共统计数据存储库,包含来自联合国 (UN)、疾病控制与预防中心 (CDC) 、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。

目前,整个语料库包含超过2500亿个数据点和超过2.5万亿个三元组。

数据有了,模型要怎么处理?

本文提出了一种将LLM桥接到数据的通用架构,并探讨了需要解决的三个问题。

首先,LLM必须学会在适当的时机选择,是使用存储在模型参数中的知识,还是从外部获取信息。

当然了,关于何时查询外部源这件事,需要LLM学到自己的参数里,这可以采用多种机制来实现。

其次,需要决定应该从哪个外部源查询所需的信息,因为可用的信息源可能很多而且是动态的。在本文中,作者直接使用单一外部信息源来包含大量数据源。

最后,一旦明确了需要哪些外部数据,LLM就需要生成一个或多个查询来获取这些数据。

一般来说,不同的来源会产生不同类型的数据,如果LLM还要专门去学习各种API就有点麻烦了。因此,作者开发了用于外部数据和服务的单一通用API。

API的灵感来自于Robert McCool在1993年设计的URL参数编码接口,虽然简单,却经受住了时间的考验,是目前在网络上最接近通用API的接口。

作者使用自然语言来表达查询,返回的答案可以用mime-type来增强,以允许非文本答案。

搞定了这些,一个能够充分利用最新最全外部数据的「AI统计学家」(或者叫统计学魔术师)就诞生了。

DataGemma

对于Data Commons这么庞大的数据源,想要被LLM正常使用,需要面对一些现实的挑战:

1. 与统计事实相关的用户查询可能涉及一系列逻辑、算术或比较运算。

比如「世界上排名前5的二氧化碳排放国是哪些国家?」;更复杂一点的比如「加利福尼亚州是世界上最大的经济体吗?」(这里面暗含了所比较的实体——加利福尼亚州与其他国家/地区相比,而不是美国各州);或者「煤发电量高的美国各州,慢性阻塞性肺病发病率也很高吗?」(这涉及到实体和指标之间的比较)。

2. 公共统计数据包含多种模式和格式,通常需要相当多的背景上下文才能正确解释。

之前的工作利用了两种方法来缓解这些问题:使用工具和检索增强生成(RAG)。

前一种方法会调整LLM来生成一种标记语言,能够将自然文本与对外部工具的函数调用穿插在一起。为了对抗幻觉,工具可能会查询数据库或搜索引擎。

而在RAG中,辅助检索系统从大型语料库中识别与用户查询相关的背景知识,然后用这些知识来增强用户的查询。

本文作者以谷歌开源的Gemma和Gemma-2模型为基础,分别利用检索交错生成(RIG)和RAG微调出两个新的版本。

开源模型:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

数据共享

Data Commons的数据共享涉及两项创新。

首先,研究人员花了数年时间访问大量公开可用的数据集,追踪数据背后的假设,并使用Schema.org(一种用于编码结构化数据的开放词汇表)对它们进行规范化,最终形成了一个包含所有数据的通用知识图谱。

其次,研究人员使用LLM创建一个自然语言界面,允许用户用通用语言提出问题,并通过图表等方式来探索庞大的数据库。

需要明确的是,LLM只是将查询转换为Data Commons中的词汇表,不会与底层数据交互,也不会生成输出,因此不必担心出现幻觉之类的问题。

当前的方法是利用这个自然语言接口,教导LLM何时以及如何与Data Commons的接口进行通信。

对齐方面,作者采用LIMA(一种指令调整和强化学习方法),遵循少即是多的原则,利用数量少但质量很高的一组示例,使最终任务与用户偏好保持一致。

RIG 与 RAG

接下来介绍将LLM与Data Commons连接的两种不同方法:

RIG

检索交错生成 (RIG),是一种受使用工具启发的方法,将LLM进行微调以生成自然语言数据共享查询,然后,多模型管道将此查询转换为结构化数据查询,用于从Data Commons数据库检索答案。

如上图所示,这里扩展了RIG管道的步骤。首先是经过微调以生成自然语言查询的模型;接着是后处理器,将自然语言查询转换为结构化数据查询;最后一个组件是查询机制,从Data Commons检索统计答案并使用LLM生成。

当向LLM提出统计查询时,通常会生成包含数字答案的文本(如下图所示)。这时可以根据数字(LLM-SV)相关的上下文,在Data Commons数据库中匹配最相关的值(DC-SV),作为事实检查机制一起返回给用户。

研究人员选择了大约700个用户查询(对应不同的统计问题)。

对于每个问题,都会从基本模型中选择带有统计数据的答案(约400个),然后将这些响应提供给功能更强大的LLM(Gemini 1.5 Pro),指示它围绕统计数据点引入自然语言数据共享调用。

所使用的提示包含三个示例作为指导,要求注释出统计值和单位,还要指示数据共享调用包括地名、指标和日期等。最后会进行人工审查,并手动重写不符合要求的数据共享调用。







请到「今天看啥」查看全文