[发明专利]一种基于深度学习语义理解的数据查询方法及装置有效
申请号: | 202010749055.8 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111625554B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 李鹏程;刘鑫;陈西亮;陈奇;吴杰 | 申请(专利权)人: | 武大吉奥信息技术有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/28;G06N3/08 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 曹雄 |
地址: | 430000 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 语义 理解 数据 查询 方法 装置 | ||
1.一种基于深度学习语义理解的数据查询方法,其特征在于,包括以下步骤:
S1、获取当前应用查询的第一数据集,从所述第一数据集中获取所有数据表的表头字段名及表格ID,将所述表头字段名进行拼接得到表头拼接文本,并生成所述表头拼接文本及其对应表格ID的字典;
S2、根据第一数据集中记录的问题和其对应的表格ID、以及步骤S1中生成的字典,结合相似度计算生成表格ID识别模型的正、负样本,进一步构建第二数据集对表格ID识别模型进行训练、验证和测试;其中,所述表格ID识别模型的输入为由问题以及表头拼接文本组成的语句,输出为所述语句中问题与表头拼接文本的匹配概率;
S3、利用第一数据集对NL2SQL模型进行训练、验证和测试;
S4、输入查询问题,通过表格ID识别模型得到匹配概率最高的前N个语句或匹配概率大于预设阈值的语句,根据得到的语句确定表格ID,并将所述表格ID与所述查询问题组成NL2SQL模型的输入,利用NL2SQL模型返回查询结果。
2.根据权利要求1所述的基于深度学习语义理解的数据查询方法,其特征在于,步骤S1的具体过程为:
S101、获取开源NL2SQL数据集,所述数据集包括训练数据集、验证数据集以及测试数据集,每种类型的数据集均包括问题标注文件、表格文件以及数据库文件;
S102、若存在已有样本数据,利用样本标注工具对已有样本数据进行标注,保证每一表格ID对应唯一的样本数据,并将标注数据添加到问题标注文件中,将标注数据使用到的表格按照对应格式添加到数据库文件和表格文件中,从而生成第一数据集;
S103、从第一数据集的表格文件中分别获取表头字段名以及表格ID,将所述表头字段名进行拼接构成表头拼接文本,然后与对应的表格ID组成键值对,生成表头拼接文本及其表格ID的字典。
3.根据权利要求2所述的基于深度学习语义理解的数据查询方法,其特征在于,步骤S2的具体过程为:
S201、根据第一数据集中的问题标注文件提取问题和表格ID;
S202、对任一问题,通过所述任一问题对应的表格ID查找步骤S1中构建的字典,得到第一表头拼接文本,将所述任一问题与所述第一表头拼接文本组成上下句语句,得到正样本,所述正样本还包括正样本标识符;
S203、将所述第一表头拼接文本与字典中的其余表头拼接文本进行句相似度计算,获取相似度排名前M的作为第二表头拼接文本;
S204、从字典中除所述第一表头拼接文本和所述第二表头拼接文本外的其余表头拼接文本中随机抽取I个,得到第三表头拼接文本,将所述任一问题分别与所述第二表头拼接文本、所述第三表头拼接文本组成上下句语句,得到负样本,所述负样本还包括负样本标识符;
S205、遍历问题标注文件中记录的问题,重复执行步骤S202-S204,生成第二数据集,所述第二数据集由正样本和负样本组成;
S206、采用bert模型外接线性输出层和sigmoid层构建表格ID识别模型,将第二数据集划分为训练、验证和测试数据,并对表格ID识别模型进行训练、验证和测试。
4.根据权利要求3所述的基于深度学习语义理解的数据查询方法,其特征在于,步骤S4的具体过程为:
S401、将查询问题与字典中的所有表头拼接文本进行组合,构成表格ID识别模型的输入语句;
S402、将查询问题与表头拼接文本构成的输入语句,作为预测样本批量输入表格ID识别模型,得到匹配概率最高的前N条语句或匹配概率超过预设阈值的语句,并根据得到的语句查询字典得到表格ID;
S403、将步骤S402中得到的表格ID与查询问题进行组合,生成NL2SQL模型的输入,利用NL2SQL模型返回查询结果。
5.根据权利要求4所述的基于深度学习语义理解的数据查询方法,其特征在于,还包括:
S1、从第一数据集以及其他数据源中获取所有数据表的表头字段名及表格ID,将所述表头字段名进行拼接得到表头拼接文本,并生成所述表头拼接文本及其对应表格ID的字典;
S2、根据第一数据集以及其他数据源中记录的问题和其对应的表格ID、以及步骤S1中生成的字典,结合相似度计算生成表格ID识别模型的正、负样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武大吉奥信息技术有限公司,未经武大吉奥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010749055.8/1.html,转载请声明来源钻瓜专利网。