[发明专利]一种基于树状模型的复杂自然语言查询转SQL方法有效
申请号: | 202110183393.4 | 申请日: | 2021-02-08 |
公开(公告)号: | CN113032418B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 陈珂;陈刚;赵猛;寿黎但;胡天磊 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/245 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 树状 模型 复杂 自然语言 查询 sql 方法 | ||
本发明公开了一种基于树状模型的复杂自然语言查询转SQL方法,该方法首先针对于输入的数据库进行预筛选,获取与自然语言查询相关的TOP K个表格,将多表查询转化为单表查询,并适配于数据库规模较大从而无法将信息输入到自然语言查询转SQL模型的情况;然后针对于复杂的SQL语句自顶向下地拆解为多叉树形式,每个结点代表一个模块,由此构建了一个树状模型来预测复杂SQL语句各模块的输出;最后针对于SQL语句值抽取的任务,将值抽取从树状模型中分离出来,共享权重来同时抽取SQL中不同子句的值。本发明的基于树状模型的复杂自然语言查询转SQL方法框架可以解决自然语言查询转SQL任务中的多表复杂查询问题。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于树状模型的复杂自然语言查询转SQL技术方法。
背景技术
当今世界的大量信息存储在数据库中,然而对这些数据的获取与分析往往需要精通SQL等形式化查询语言,限制了非技术用户的使用.自然语言查询转SQL技术可以有效打通用户和数据库的壁垒。该技术可以理解用户的口语查询和数据库的结构信息,并对此加以融合和解析,生成数据库可理解的SQL语句,进而对数据库执行查询来返回结果,从而实现基于数据库的自动问答能力。
当前学术界对于自然语言查询转SQL的研究进展迅速,然而已有的工作大多基于英文场景,面向中文领域实际应用时,中文特殊的口语化表达导致复杂SQL转化的正确率大幅下降,也不能解决面向商业智能的计算查询新需求。同时,当前的研究工作忽略了现实中数据库规模较大而无法将信息完全输入到模型的可能性,以及跨领域查询时面对结构变化的新数据库致使模型性能下降的问题。针对以上问题,本文提出了一套基于树状模型的复杂自然语言查询转SQL系统框架,并在中文DuSQL数据集上不同测试集分别取得了第一名和第二名的成绩,证明了解决方案的有效性,具有一定的学术价值和现实意义。
发明内容
为克服现有的针对于复杂查询转SQL问题解决方案的不足,本发明提供了一种基于树状模型的自然语言查询转SQL技术框架,本发明将解决复杂多变的中文口语查询转SQL问题作为核心研究点,对复杂SQL语句自顶向下地拆解为多叉树形式,提出了一种可生长的树状模型;同时对其升级解决了面向商业智能的计算查询新需求;针对于跨领域查询数据库结构变化导致性能下降的问题,提出了一种表格信息增强算法来提高模型稳定性;针对于低资源条件下模型无法处理任意规模数据库的问题,提出了一种对数据库表格进行预筛选的筛选模型。最终搭建了一套基于树状模型的复杂自然语言查询转SQL系统框架,并在中文DuSQL数据集上取得了优异的成绩,证明了解决方案的有效性。
本发明的目的是通过以下技术方案来实现的:一种基于树状模型的复杂自然语言查询转SQL方法,包括以下步骤:
(1)对于输入的自然语言口语查询进行预处理,所述预处理具体为对输入的自然语言口语查询按数据库存储的记录格式进行时间、日期、数值描述;
(2)对于输入的数据库中的所有表格通过筛选模型进行预筛选,得到与口语查询相关度最高的K个表格;
(3)对于输入的自然语言查询以及筛选后的表格,通过树状模型去预测复杂SQL语句各组成模块的结果;
(4)对于树状模型预测出的SQL结果进行补全,首先识别需要补全条件值的条件列,接着通过值抽取模型分别获取每个条件列对应的条件值;
(5)构造出json形式的预测结果,通过SQL解析后处理算法来得到SQL语句的表达形式。
进一步地:所述步骤(2)包括以下子步骤:
(2.1)输入部分为自然语言查询Q和数据库模式,其中只关注数据库模式中的各数据表格的表名和字段信息,并定义各表格信息T的表示形式为“表名__列名1_列名2…”;
(2.2)将步骤(2.1)中的Q以及所有的T输入到筛选模型中,得到每个表格T与自然语言Q的相关度分数,并且保存相关度最高的K个表格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183393.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三元吡啶配体及其制备方法
- 下一篇:一种工业炉渣综合利用的水泥制成工艺