[发明专利]一种基于深度学习语义理解的数据查询方法及装置有效
申请号: | 202010749055.8 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111625554B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 李鹏程;刘鑫;陈西亮;陈奇;吴杰 | 申请(专利权)人: | 武大吉奥信息技术有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/28;G06N3/08 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 曹雄 |
地址: | 430000 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 语义 理解 数据 查询 方法 装置 | ||
本发明提供一种基于深度学习语义理解的数据查询方法及装置,所述方法包括:获取第一数据集,从第一数据集中获取所有数据表的表头字段名及表格ID,将表头字段名拼接得到表头拼接文本,生成表头拼接文本及其对应表格ID的字典;根据第一数据集中记录的问题和其对应的表格ID、以及字典,结合相似度计算生成表格ID识别模型的正、负样本,对表格ID识别模型进行训练、验证和测试;利用第一数据集对NL2SQL模型进行训练、验证和测试;输入查询问题,通过表格ID识别模型得到匹配概率较高的表头拼接文本,从而确定表格ID,并将表格ID与查询问题组成NL2SQL模型的输入,利用NL2SQL模型返回查询结果。本发明的有益效果:提高了NL2SQL模型应用的灵活性和泛化性。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于深度学习语义理解的数据查询方法及装置。
背景技术
基于自然语言的数据查询技术有重要的现实意义,能极大地改善人机交互体验,并为缺乏操作知识的群体提供服务。基于自然语言的数据查询概念,早在19世纪80年代就已出现,早期的智能查询主要基于规则来判别完成查询语句的关键部分或通过程序设计让用户完成字段等的选择,因此实现的查询功能存在较多的应用局限性。而随着深度学习技术在自然语言任务中表现的不断提升,基于深度学习的智能查询,成为了目前数据查询服务研究领域的热点问题之一。
语义解析和查询语句的生成是达成智能数据查询的关键技术,例如,NL2SQL、Text2SQL等将自然语言转为SQL语句的技术,目前已经在WikiSQL、Spider、WikiTableQuestions、ATIS等数据集上表现良好。相较于一般语言模型的样本标注,NL2SQL标注样本的生成较为复杂,目前,较大的中文数据集为追一科技发布的NL2SQL中文数据集。在智能数据查询中建立表格定位模型可充分利用现有的NL2SQL模型中文数据集,减少工作的成本和复杂度。
就实际智能查询应用而言,用户查询时,并不会指定具体的查询表格,这也是NL2SQL等模型进行实际应用中的难点之一,通常语义解析通过分词、实体识别以及关键词库的规则匹配等手段来实现具体表格的定位,虽然可以一定限度的满足具体任务的需求,但由于语法解译规则和关键词库的限制,必然存在扩展和泛化方面的不足。而深度学习技术已经被广泛的应用于处理语句关联问题,并较传统方法展现出了一定的优势,因此,采用深度学习方法替代基于规则的语义解析,将有助于提高NL2SQL模型的应用范围和灵活性。
发明内容
有鉴于此,本发明提供了一种基于深度学习语义理解的数据查询方法及装置,用于提高NL2SQL模型应用的灵活性和泛化性,以期为改善人机交互体验提供一种新的可选方案。
本发明提供一种基于深度学习语义理解的数据查询方法,包括以下步骤:
S1、获取当前应用查询的第一数据集,从所述第一数据集中获取所有数据表的表头字段名及表格ID,将所述表头字段名进行拼接得到表头拼接文本,并生成所述表头拼接文本及其对应表格ID的字典;
S2、根据第一数据集中记录的问题和其对应的表格ID、以及步骤S1中生成的字典,结合相似度计算生成表格ID识别模型的正、负样本,进一步构建第二数据集对表格ID识别模型进行训练、验证和测试;其中,所述表格ID识别模型的输入为由问题以及表头拼接文本组成的语句,输出为所述语句中问题与表头拼接文本的匹配概率;
S3、利用第一数据集对NL2SQL模型进行训练、验证和测试;
S4、输入查询问题,通过表格ID识别模型得到匹配概率最高的前N个语句或匹配概率大于预设阈值的语句,根据得到的语句确定表格ID,并将所述表格ID与所述查询问题组成NL2SQL模型的输入,利用NL2SQL模型返回查询结果。
本发明还提供一种基于深度学习语义理解的数据查询装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武大吉奥信息技术有限公司,未经武大吉奥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010749055.8/2.html,转载请声明来源钻瓜专利网。