[发明专利]基于多视角特征解耦的NL2SQL方法和装置在审
申请号: | 202210405166.6 | 申请日: | 2022-04-18 |
公开(公告)号: | CN114969087A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 龙玲莉;祝永晋;李剑;孔峥;李昆明;邵俊;陈公海;于广荣;杨勤胜;林涛;谢伟;曹卫青;张旭;周德宇 | 申请(专利权)人: | 江苏方天电力技术有限公司;东南大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2458;G06F8/30 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视角 特征 nl2sql 方法 装置 | ||
本发明公开了一种基于多视角特征解耦的NL2SQL方法及装置,所述方法具体包括以下步骤:(1)NL2SQL知识库构建步骤;(2)NL2SQL数据集构建步骤;(3)NL2SQL模型构建步骤,用于分别构建SQL查询语句SELECT部分、WHERE部分以及SQL整体的语义编码模型;为了有效捕捉SELECT以及WHERE各个部分的语义特征,构建多视角特征解耦的方法;(4)NL2SQL模型训练步骤,用于构建损失函数,构建优化函数。本发明的方法真实的NL2SQL数据集上取得了显著效果,在自动问答系统领域有很大的应用前景。
技术领域
本发明涉及本发明涉及人工智能、自然语言处理技术领域,具体涉及一种基于多视角特征解耦的NL2SQL方法和装置。
背景技术
随着信息化建设与信息技术发展,每时每刻都在产生大量的业务数据。用户如果想要查询数据,一般通过相关系统页面上固定的查询功能实现,这就要求用户需要对系统功能非常熟悉才能快速定位到具体模块。同时,系统页面上的查询条件和返回内容都有固定的格式,如果想要满足个性化的查询,需要额外定制新的页面功能,会产生额外的成本。
目前,这些大量的数据一般都是使用数据库来进行组织存储,其中关系数据库是数据库应用的主流,它借助于集合代数等概念和方法来处理数据库中的数据,具有易理解,易使用,易维护,支持SQL(Structured Query Language,即结构化查询语言)语言的优点。虽然一般的查询都可以通过SQL语言在数据库中获取,但是SQL语言作为一种数据库操作语言,本质上是一种编程语言。它需要操作人员经过数据库和SQL相关知识的培训且具有一定的专业知识后,才能比较熟练地进行SQL语句编程。除了要具备SQL和数据库技术的相关知识,使用者在实际操作时还需要对所涉及到的关系型数据库的模式信息有所了解,只有这样才能将各种操作需求转化为正确的SQL语句。同时,随着数据库系统的应用场景越来越多,数据库的数据量和内部逻辑变得越来越复杂,即便是对经验丰富的软件开发人员或者数据库管理人员来说,想要将自己的查询意图转换为正确的SQL语句也变得越来越困难。
而随着近几年人工智能技术的迅猛发展,语义识别技术日趋成熟,为NL2SQL(Natural Language to SQL,即将自然语言转化为SQL语言)技术在信息系统中的应用提供了前提条件。 NL2SQL解决通过自然语言自由查询数据库的问题,解决了不熟悉系统的用户也可以在前台用自然语言按需查询数据,降低了对业务人员的要求,降低人机交互的距离和门槛。
发明内容
发明目的:如何准确地将用户问题转换为SQL查询语句,并返回用户所需要的答案,是 NL2SQL的一个核心问题。本专利申请借助于深度学习技术解决这一问题。为了解决编码过程中出现的语义缺失问题,本申请提出了一种新的多阶段的语义编码模型,分别用来进行SQL 查询语句SELECT部分、WHERE部分以及SQL整体的语义提取;为了有效捕捉SELECT以及WHERE各个部分的语义特征,本申请提出了一种基于多视角特征解耦的NL2SQL方法和装置。本申请所提出的方法在真实的NL2SQL数据集上取得了显著效果,在自动问答系统领域有很大的应用前景。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于多视角特征解耦的NL2SQL方法,该方法包括以下步骤:
S1.构建NL2SQL知识库,利用用户的查询问题,人工编写SQL查询语句,构造由查询问题、SQL查询语句以及表结构一一对应的数据条目,形成NL2SQL知识库;
S2.构建NL2SQL数据集,对于每个问题,在NL2SQL知识库中每一个问题都有一个与之配对的SQL查询语句以及数据库表结构,根据NL2SQL知识库划分训练集、验证集以及测试集;
S3.构建NL2SQL模型,依次构建输入层、构建SELECT部分编码模型、构建WHERE部分编码模型、构建SELECT+WHERE部分编码模型、构建不同任务多视角解耦层、构建不同子任务预测层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏方天电力技术有限公司;东南大学,未经江苏方天电力技术有限公司;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210405166.6/2.html,转载请声明来源钻瓜专利网。