专栏名称: 阿里开发者

阿里巴巴官方技术号，关于阿里的技术创新均将呈现于此

Text-to-SQL技术演进 - 阿里云OpenSearch-SQL在BIRD榜单夺冠方法剖析

阿里开发者 · 公众号 · 科技公司 · 2024-09-13 08:30

主要观点总结

本文介绍了阿里云OpenSearch在Text-to-SQL任务中的最新进展和技术细节，包括其背景、技术演进、OpenSearch-SQL方法剖析以及快速体验指南。

关键观点总结

关键观点1: Text-to-SQL任务旨在将自然语言查询转换为结构化查询语言（SQL），使得非专业用户能够便捷地访问和操作数据库。

阿里云的OpenSearch引擎凭借一致性对齐技术在当前有影响的Text-to-SQL任务榜单BIRD数据集上获得第一名。

关键观点2: 技术演进部分介绍了Text-to-SQL领域的研究历史、核心挑战以及传统方法和LLM方法的技术演进。

包括基于Sketch、中间语言等传统方法和LLM驱动的方法，以及标准框架和代表方法等。

关键观点3: OpenSearch-SQL方法剖析部分提出了OpenSearch-SQL的两个版本，包括存在的问题以及解决方法，如渐进式生成和一致性对齐。

介绍了如何通过任务分解、Double Check + Vote机制等技术手段提高SQL生成的准确性和效率。

关键观点4: 快速体验OpenSearch-SQL部分提供了如何快速体验OpenSearch-SQL的方法，包括访问链接和相关信息。

强调了OpenSearch-SQL已正式上线，用户可以在OpenSearch平台上进行体验。

关键观点5: 文本生成3D模型方案介绍了一种结合云上GPU算力的AIGC应用方式，底层GPU云服务器有助于提升3D模型的效率和精度。

描述了如何利用强大的并行计算能力和浮点运算性能降低成本并提高工作效率。

正文

阿里妹导读

本文主要介绍了阿里云OpenSearch在Text-to-SQL任务中的最新进展和技术细节。

一、引言

Text-to-SQL任务旨在将自然语言查询转换为结构化查询语言（SQL），从而使非专业用户能够便捷地访问和操作数据库。近期，阿里云的OpenSearch引擎凭借其一致性对齐技术，在当前极具影响力的Text-to-SQL任务榜单BIRD数据集上荣获第一名，超越了包括IBM、Google、字节跳动、斯坦福大学等知名科技公司和高校。本文将介绍Text-to-SQL的技术演进，并对OpenSearch-SQL方法进行剖析。

信息源:2024.8.29

同时， 阿里云OpenSearch 中该功能已经上线，欢迎大家使用。

开放搜索平台：https://help.aliyun.com/zh/open-search/search-platform/

二、背景

Text-to-SQL领域的研究历史悠久，其核心在于如何使人们能够通过自然语言提问并获得精准的SQL查询结果。过去，由于复杂的语法和逻辑要求，这一领域的价值主要集中在学术界。然而，随着大模型技术的发展，工业级的Text-to-SQL解决方案开始逐渐涌现。

Text-to-SQL技术面临的主要挑战在于准确解析用户意图，识别问题中的实体和关系，并将其映射到数据库的表、列及对应的SQL操作。这一过程不仅需要模型具备强大的语言理解能力，还必须深入了解SQL语法，并在面对多样化的数据库结构时展现良好的泛化能力。

为推动该领域的发展，一系列公开数据集和基准测试相继出现，如WikiSQL、Spider和BIRD等。它们为模型的训练和评估提供了标准，促进了技术的交流与竞争。这些丰富的资源使得Text-to-SQL系统从最初的简单查询，逐步发展到能够处理多条推理、比较运算和聚合函数等复杂SQL查询，极大地拓宽了其应用场景。

下图是一个Text-to-SQL极简的例子：

A survey on deep learning approaches for text-to-SQL

三、技术演进

3.1 传统方法

3.1.1 基于Sketch

这些方法基于SQL的结构，将SQL生成过程拆分为多个子模块，例如SELECT、AGG函数和WHERE条件等。在后续的生成过程中，根据这些模块的槽位选择相应的具体方法，从而提高生成的灵活性和准确性。

最初的方法以Seq2SQL为代表，它利用神经网络的分类任务对分解后的架构进行槽位内容的预测和填写。尽管这种基于架构分解的方法显著简化了Text-to-SQL任务的复杂度，但也因此限制了其处理SQL复杂性上限。例如，对于WikiSQL这样相对简单的数据集，这种方法能够取得不错的效果；然而，对于Spider等涉及复杂语法的问题，这种方法往往无法达到预期的结果。

Seq2sql: Generating structured queries from natural language using reinforcement learning

类似思路的方法还有Coarse2Fine和RYANSQL等。这些方法不仅通过模型生成具体架构中的槽位内容，还尝试让模型先生成自然语言查询（NLQ）的具体架构。这一改进使得这些方法在处理复杂语法和多样化数据库环境时具有更好的扩展性。

3.1.2 基于中间语言

还有一些研究人员发现，与直接生成SQL相比，在解码过程中生成其他内容更容易与自然语言保持一致。这种先生成中间语言（可以是预先存在的语言或专门为特定任务构建的语言），再生成SQL的方法被称为基于中间语言的方法。

Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation

比如上图的IRNet，专门为SemQL构建了中间语言，于是让模型通过构建中间语言的方式来简化生成SQL的难度，等到生成中间语言后继续生成SQL。

3.1.3 小结

基于传统模型的方法还包括一些采用预训练模型替代传统编码器、利用图结构分析语法树，以及将重点放在数据库信息过滤等方面的算法。总体来看，基于Sketch、中间语言等形式的方法是对模型能力不足的一种补充。然而，最终生成SQL的效果在很大程度上依赖于研究人员手工设置的架构的表示能力，这限制了这些方法的迁移能力。

3.2 LLM方法

随着LLM能力的不断提高，LLM驱动的方法相较于传统方法展现出更强的迁移能力和推理能力，使得Text-to-SQL任务逐步进入一个新的阶段。在这个阶段中，更复杂的SQL任务得以有效处理，而无需局限于人为设计的具体框架。从数据集的角度来看，LLM驱动的方法所面临的任务难度也逐渐从Spider过渡到了BIRD，标志着对更复杂查询的挑战能力显著提升。

举例来说，传统方法中使用的经典模型T5-Base在Spider上可以达到71.1%的准确率，但在BIRD上仅实现了7.06%的准确率。而GPT-4在Spider上达到83.9%的准确率，而在BIRD上则为54.89%的准确率。这一对比反映了大模型驱动的方法在迁移性和应对更复杂问题上的显著优势。

3.2.1 标准框架

虽然LLM驱动的Text-to-SQL任务尚未形成一个明确的统一框架，但目前能够取得良好效果的框架大致可以归纳为以下四个部分：

准备阶段： 准备数据库所必须的信息。

清洗各环节所用的数据库DDL。
处理数据库存储值，维护向量数据库。
准备Few-shot。

提取阶段： 根据具体的问题提取必须信息，帮助模型降低任务难度。

面对大型数据库和复杂的任务，通过提取任务过滤字段和值来降低生成任务的难度。

生成阶段： 根据所有的准备信息用大模型生成SQL，同时设计一些生成SQL的思路

使用COT、任务分解等方式。
用Few-shot驱动LLM理解任务。

优化阶段： 根据一些规则或者SQL的执行结果对SQL进行二次自动修正。

根据执行结果对不可执行的SQL进行改正。
通过大模型进行SQL的选择。

3.2.2 代表方法

在LLM驱动的方法中，一些具有代表性的模型包括：

DIN-SQL： 利用链式推理（COT）进行SQL生成，增强了生成的逻辑性和可追溯性。
ExSL + Granite-34B-Code： 使用微调（SFT）模型来完成SQL生成任务，体现了预训练模型在特定任务上的适应能力。
MAC-SQL： 通过任务分解的方式来完成SQL生成，降低了复杂任务的难度，使模型能更好地处理多步骤的问题。
DAIL-SQL： 采用动态Few-shot策略，进一步提升模型在不同场景下的适应性。
CHESS： 使用更复杂的抽取模式以选择关键字段，在处理复杂SQL时表现出色。

这些方法在实际应用中均取得了不错的效果，展示了大模型技术在Text-to-SQL任务中的潜力。

四、OpenSearch-SQL方法剖析

在对基于LLM的Text-to-SQL方法进行分析后，我们提出了OpenSearch-SQL，旨在为Text-to-SQL方法提供一个标准的流程并解决当前方法中一些共性的问题。 OpenSearch-SQL分为两个版本，均遵循如下的多Agent框架形式：

4.1 OpenSearch- SQL, v1

在 OpenSearch- SQL, v2 （以下简称v1）版本中，我们首次定义了上述Text-to-SQL框架。目前，v1在BIRD榜单上排名第十一（提交时为第二）。

预处理Agent： 构建了Few-shot示例、数据库中值的向量库以及数据库结构信息。
生成Agent： 利用动态Few-shot驱动LLM生成SQL。
优化Agent： 根据SQL的执行结果对生成的SQL进行纠错和修正，最终得到优化后的SQL查询。

尽管v1版本已经取得了不错的效果，但经过深入分析，我们发现多Agent协作过程中，生成阶段的任务复杂性以及指令遵循失败是导致大模型生成不准确SQL的主要原因。具体问题如下：

生成阶段任务难度过高：

从SQL组件（如表、列和值）到生成SQL之间，存在复杂的思考过程。目前的方法往往要求模型直接完成这一转换，这无疑增加了生成任务的难度。

指令遵循失败：

提取字段和值： 出现提取内容不完整或不一致的情况。
生成阶段： 模型在生成阶段未充分利用提取出的信息。
SQL风格不匹配： 生成的SQL虽然合理，但与数据库的风格不符。
忽视需求： 即使在提示中清楚表述了需求，LLM仍可能无视这些要求。

4.2 OpenSearch-SQL, v2

为了解决v1版本中存在的问题，在OpenSearch-SQL, v2中，我们一开始就定义了两个问题：

如何降低SQL生成的难度：渐进式生成
如何提高LLM指令遵循的成功率：一致性对齐

4.2.1 渐进式生成

为了降低SQL生成过程中的难度，我们提出了一种全新的方法来分解生成任务。虽然已有一些方法将生成SQL的过程划分为子任务进行处理再进行归并，但在实际场景中，这种分解可能会延长生成链条，并且在分解和组合的过程中容易引入误差，导致无法简单地将各个子SQL有效组合。因此，我们的目标是设计一种更为高效的分解方法，使得生成过程更简洁，同时减少误差的累积，从而提升整体SQL的生成准确性和效率。

我们认为可以逐步的完成SQL中的各个部分：SELECT、WHERE、GROUP BY等。于是，我们用一种COT的思路，逐步生成分析，SQL中的SELECT、Column、Value以及SQL本体。


What is the phone number of the school that has the highest average score in Math?
#reason: The question want to know the phone number of the school, so the SQL SELECT schools.Phone and the condition is the school that has the highest average score in Math.#columns: schools.Phone, schools.CDSCode, satscores.AvgScrMath#values: highest average score in Math refers to ORDER BY satscores.AvgScrMath DESC LIMIT 1#SELECT: phone number of the school refers to schools.Phone#SQL-like: SELECT schools.Phone FROM schools ORDER BY satscores.AvgScrMath DESC LIMIT 1#SQL: SELECT T1.Phone FROM schools AS T1 INNER JOIN satscores AS T2 ON T1.CDSCode = T2.cds ORDER BY T2.AvgScrMath DESC LIMIT 1
这样的做法相对于分解任务再合并的好处是：

由于环节之间的Gap很小，检查时可以清晰看出SQL生成过程中是哪一个环节出了问题。
渐近生成可以先忽略语法上不重要的信息对SQL生成的影响（如JOIN）。
COT中一次性完成任务可以避免多agent合作引入的不一致性。