[发明专利]一种基于深度学习的表格检索方法有效
申请号: | 202111293521.7 | 申请日: | 2021-11-03 |
公开(公告)号: | CN113743539B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 杜振东 | 申请(专利权)人: | 南京云问网络技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/332;G06F16/33 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 钱丽 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 表格 检索 方法 | ||
1.一种基于深度学习的表格检索方法,其特征在于,包括:
步骤1、接收用户输入的查询语句q,加载数据库中所有表格T的行、列以及单元格的语料库集合,每个特征信息是表格的一行、一列或者单元格内容组成的列表集,1≤i≤m;同时载入数据库中所有表的背景信息,其中,一张表格包含行、列、单元格信息特征,,n≤m,所述表格的背景信息为,j≤k;
步骤2、对于每张表格的信息特征进行统计特征提取,每个信息特征生成一个统计特征向量a,将a放入多层感知机中,计算出,具体如下:
其中,为多层感知机的参数,为偏置参数;
步骤3、将用户查询语句q、表格的背景信息集合和单个特征信息连接,并用[SEP]间隔开形成拼接向量
其中,是拼接向量
将所述拼接向量
步骤4、取RoBERTa模型最后一层输出的[CLS]向量与感知机输出拼接成包含相似度信息的特征向量O,具体如下:
步骤5、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算相似度得分,具体如下:
其中,,R为常数,d为的维度,h为RoBERTa隐含层的维度;
以相似度得分排名最高的若干个表格作为检索结果输出。
2.根据权利要求1所述的基于深度学习的表格检索方法,其特征在于,所述统计特征包括与查询语句q相同字个数、相同词个数、最大公共子字串、表中行标题是否存在和表中列标题是否存在。
3.根据权利要求1所述的基于深度学习的表格检索方法,其特征在于,所述RoBERTa模型通过以下方式训练获得:
步骤101、对于正样本,收集用户的查询语句集合Q、每个查询语句q相匹配单张表格的背景信息集合、与查询语句q匹配的表格特征信息以及与查询语句q相匹配表格的信息特征,查询语句q∈Q,标注相似度分数,作为正样本Data-P;对于负样本,在生成正样本的基础上,用BM25获得与查询语句q非正确匹配但相似程度排前5名的表格的背景信息集合、表格特征信息和信息特征组成的负例数据样本Data-N,标注,把Data-P和Data-N合在一起生成所有样本数据Data,并拆分成训练集、验证集、测试集;
采用BM25算法计算语料库集合F中的每一个特征信息与查询语句q的相似程度,并根据相似程度进行排序,以从语料库集合F中找出与查询语句q最相似的若干个知识内容,所述相似程度的计算方式如下:
其中,为表格内容,其为特征信息列表中的一个元素,为查询语句q中词的个数,e为词在查询语句q中的排列序号,为查询语句q中第e个词,为第e个词的权重,其计算方式如下:
其中,N表示特征信息列表中的所有元素的个数,表示特征信息列表中包含词汇的元素的个数;
为第e个词与表格内容的相关性分数,其计算方式如下:
其中,、和分别为调协因子,表示查询语句q中的词汇在特征信息列表中出现的次数;表示词汇在查询语句q中出现的次数,为表格内容的长度,为特征信息列表中所有表格内容的平均长度;
步骤102、对于所述训练集中的所有训练样本,执行步骤3和步骤4得到包含相似度信息的特征向量O;
步骤103、将包含相似度信息的特征向量O通过一个全连接线性层回归函数计算最后相似度得分,通过多次训练迭代,使得计算输出的相似度得分与训练数据的标签误差减小至设定阈值范围内后,将训练好模型保存。
4.根据权利要求3所述的基于深度学习的表格检索方法,其特征在于,还包括:
步骤104、训练样本依次经过步骤1至5后得到相似度得分排名最高的若干个表格,以及得到对应背景信息集合、特征信息以及信息特征,剔除计算出的相似度分数的数据样本,得到新的负样本,并将新的负样本与所述正样本建立新的训练集,并以新的训练集中的训练样本进行二次训练过程,然后保存二次训练后的模型。
5.根据权利要求3所述的基于深度学习的表格检索方法,其特征在于,所述的取值为2,所述的取值为1,所述的取值为0.75。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京云问网络技术有限公司,未经南京云问网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111293521.7/1.html,转载请声明来源钻瓜专利网。