[发明专利]一种基于深度学习的表格检索方法有效

申请号：	202111293521.7	申请日：	2021-11-03
公开（公告）号：	CN113743539B	公开（公告）日：	2022-02-08
发明（设计）人：	杜振东	申请（专利权）人：	南京云问网络技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/332;G06F16/33
代理公司：	南京瑞华腾知识产权代理事务所(普通合伙) 32368	代理人：	钱丽
地址：	210000 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习表格检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习的表格检索方法。包括接收用户输入的查询语句q，加载数据库中所有表格的行、列、单元格的特征信息集合F以及数据库中所有表的背景信息C，然后开始推断过程。本发明采用了比BERT效果更好的RoBERTa预训练模型，并在原有深度学习模型基础上加入了统计特征进行特征融合，使得相似度的计算时候利用了统计层面上相似度信息，具有全面性和准确性；同时在训练的时候，采用了BM25与增加难负例训练相结合的训练方法，让训练出来的模型对于易出错样本有更强的适应能力，提升了模型精度。

技术领域

本发明涉及表格检索技术领域，具体涉及一种基于深度学习的表格检索方法。

背景技术

信息技术的发展不断推动着互联网技术的变革，数据表格和知识图谱是当前结构化知识库的常用储存形式，因此，如何快速检索表格中与查询最相关的信息对于智能搜索、问答等任务有重要意义，同时提升用户工作效率，改善体验。

当前很多的表格的检索系统对表格内容信息都采用了深度学习的神经网络结构，如BiLSTM、BERT等，但未利用到针对于表格所特有的统计特征，降低表征向量的表征能力，并且对于复杂的难样本的检索效果水平还是较低。

发明内容

本发明的目的是针对现有技术存在的不足，提供一种基于深度学习的表格检索方法。

为实现上述目的，本发明提供了一种基于深度学习的表格检索方法，包括：

步骤1、接收用户输入的查询语句q，加载数据库中所有表格T的行、列以及单元格的语料库集合，每个特征信息是表格的一行、一列或者单元格内容组成的列表集，1≤i≤m；同时载入数据库中所有表的背景信息，其中，一张表格包含行、列、单元格信息特征，，n≤m，所述表格的背景信息为，j≤k；

步骤2、对于每张表格的信息特征进行统计特征提取，每个信息特征生成一个统计特征向量a，将a放入多层感知机中，计算出，具体如下：

其中，为多层感知机的参数，为偏置参数；

步骤3、将用户查询语句q、表格的背景信息集合和单个特征信息连接，并用[SEP]间隔开形成拼接向量I，所述拼接向量I的格式如下：