[发明专利]一种查询语句的生成方法、相关方法及装置在审

申请号：	202010664003.0	申请日：	2020-07-10
公开（公告）号：	CN113918589A	公开（公告）日：	2022-01-11
发明（设计）人：	董保华	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/242	分类号：	G06F16/242;G06F16/248;G06F40/247;G06F40/295
代理公司：	北京思格颂知识产权代理有限公司 11635	代理人：	王申
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种查询语句生成方法相关装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种查询语句的生成方法、相关方法及装置。所述查询语句的生成方法，包括：将当前对话轮次的自然语言查询语句输入到槽位识别模型中，得到当前槽位结构信息；所述当前槽位结构信息包括预设槽位结构格式的槽位以及所述槽位中的所述自然语言查询语句的命名实体；若当前槽位结构信息中有空槽位，则获取至少一个在先对话轮次的自然语言查询语句对应的在先槽位结构信息；利用所述在先槽位结构信息中命名实体填充当前槽位结构信息的空槽位；对填充后的当前槽位结构信息中的各槽位对应的命名实体进行拼接，得到查询语句。本发明解决了现有技术中多轮对话场景下查询语句准确率低的问题。

技术领域

本发明涉及自然语言处理领域，特别涉及一种查询语句的生成方法、相关方法及装置。

背景技术

数据库中存储了大量的数据，如果想要获取数据库中的数据，数据查询对象，例如运营人员或者数据分析人员，一般采用自然语言转换为SQL语言(Natural Language toStructured Query Language，NL2SQL)的方式，通过将描述想要查询的内容的自然语言查询语句转换为SQL语句，让普通查询对象快速的获取到自己想要的数据。

通常使用的NL2SQL方式的实现方式为通过端到端的深度学习模型，对自然语言查询语句和数据表的所有表头信息进行编码，然后进行解码，生成对应的SQL语句。将自然语言查询语句通过端到端的方式解析为SQL语句，只能满足单轮对话的要求。当需要基于上下文信息进行查询条件的变更进行多轮对话时，由于端到端的解决方案中，不同对话轮次的上下文信息没有实现关联，得到的SQL语句的准确率低，很难从数据库得到当前对话轮次需要的数据。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种查询语句的生成方法、相关方法及装置。

第一方面，本发明实施例提供一种查询语句的生成方法，包括如下步骤：

将当前对话轮次的自然语言查询语句输入到槽位识别模型中，得到当前槽位结构信息；所述当前槽位结构信息包括预设槽位结构格式的槽位以及所述槽位中的所述自然语言查询语句的命名实体；

若当前槽位结构信息中有空槽位，获取至少一个在先对话轮次的自然语言查询语句对应的在先槽位结构信息；

利用所述在先槽位结构信息中命名实体填充当前槽位结构信息的空槽位；

对填充后的当前槽位结构信息中的各槽位对应的命名实体进行拼接，得到查询语句。

在一个实施例中，在所述将当前对话轮次的自然语言查询语句输入到槽位识别模型中之前还包括：

根据预先获取的元数据表创建所述预设的槽位结构格式的每个槽位对应的命名实体的集合；

从各个所述集合中随机抽取命名实体得到多个训练样本；

对所述多个训练样本进行序列标注，得到标注后的训练样本；

基于所述标注后的训练样本对初始模型进行训练，得到所述槽位识别模型。