[发明专利]一种基于深度学习的自然语言查询方法有效
申请号: | 202010336575.6 | 申请日: | 2020-04-25 |
公开(公告)号: | CN111522839B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 李玉华;李相臣;李瑞轩;辜希武 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2452;G06F16/28;G06F16/22;G06N3/045;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 自然语言 查询 方法 | ||
本发明公开了一种基于深度学习的自然语言查询方法,包括以下步骤:S1、将自然语言问题Q输入到预训练好的句向量模型中,得到对应的句向量;S2、从句向量模型所对应的句向量空间中检索出自然语言问题Q所对应的句向量的最近邻句向量及其自然语言问题,将所得最近邻句向量的自然语言问题的关系数据库表作为自然语言问题Q的目标关系数据库表;S3、将自然语言问题Q与其目标关系数据库表表头拼接到一起,输入到预训练好到的转换模型中,得到其对应的SQL查询语句;S4、采用所得SQL语句在自然语言问题Q的目标关系数据库表中进行查询,得到查询结果。本发明在给定自然语言问题后能够快速确定其目标关系数据库表,在现实场景中查询结果的准确率较高。
技术领域
本发明属于自然语言处理领域,更具体地,涉及一种基于深度学习的自然语言查询方法。
背景技术
随着信息系统的普及和发展,数据的数量越来越多,也越来越重要,人们对数据的需求也随之增多。然而有时候数据过于庞大复杂,对于我们来说反而是一种困扰,要从其中找到需要的数据是一件不容易的事,因为数据大多存储在数据库中,就数据库的使用来说,需要使用特定的查询语言来从数据库中查询数据,而特定的查询语言的学习和使用是存在一定门槛的,对于普通使用者来说学习代价比较高,研究一种自然语言查询方法存在重要意义。
许多学者相继提出了许多自然语言查询方法,从早期的基于语法句法分析的方法到最新的基于深度学习的方法,都在自然语言查询方向做出了很多尝试。其中,在早期的时候,学者们通常采用文法分析进行定制化数据库自然语言接口查询系统的研究,这种方法通常需要领域专家知识和定制化,并且泛化能力表现的也一般;随着深度学习的兴起和计算能力的快速提升,基于深度学习的方法进行自然语言查询的研究逐渐多了起来,学者们相继提出SEQ2SQL、SqlNet、Sqlova、TypeSQL、X-SQL、Coarse2Fine、Pointer-SQL、AnnotatedSeq2Seq、多任务问题应答网络(Multitask Question Answering_Network,MQAN)、Execution guided decoding等等方法来处理NL2SQL任务,这种方法的泛化能力效果相对好一些,但是需要大量人工标注过的训练数据,采用人工标注来产生训练数据,本身的造价就比较昂贵;与此同时,有学者提出采用弱监督学习,如内存增强策略优化(MemoryAugmented Policy Optimization,MAPO)、元奖励学习(Meta Reward Learning,MeRL)的方法来产生训练数据,进而用产生的训练数据再进行深度学习训练。但是上述方法在进行研究的时候,大多数是给定了当前自然语言问题的目标关系型数据库表,只在给定表上研究如何生成SQL查询语句,未考虑根据自然语言问题定位自然语言问题的目标关系型数据库表的过程。而在现实中,由自然语言问题定位关系数据库表的过程是不可避免的,也直接关系到能否生成正确的SQL查询语句,故现有方法在现实场景中查询结果的准确率较低;且目前的研究大多是集中在英文wikisq1数据集领域,针对中文领域自然语言查询接口的研究比较少。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种基于深度学习的自然语言查询方法,用以解决现有技术由于未考虑根据自然语言问题定位自然语言问题的目标关系型数据库表的过程,而导致在现实场景中查询结果的准确率较低的技术问题。
为了实现上述目的,第一方面,本发明提出了一种基于深度学习的自然语言查询方法,包括以下步骤:
S1、将自然语言问题Q输入到预训练好的句向量模型中,得到对应的句向量;
S2、从句向量模型所对应的句向量空间中检索出自然语言问题Q所对应的句向量的最近邻句向量及其自然语言问题,将所得最近邻句向量的自然语言问题的关系数据库表作为自然语言问题Q的目标关系数据库表;
S3、将自然语言问题Q与其目标关系数据库表表头拼接到一起,输入到预训练好到的转换模型中,得到其对应的SQL查询语句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010336575.6/2.html,转载请声明来源钻瓜专利网。