[发明专利]文档检索方法、设备及计算机可读存储介质有效
申请号: | 202011215045.2 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112347223B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 王伟;李响;邓俊毅;谢超 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/36;G06F40/216;G06F40/295;G06F40/30;G06N3/0442;G06N3/049;G06N3/08 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 魏润洁 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 检索 方法 设备 计算机 可读 存储 介质 | ||
本发明涉及自然语言处理,提供一种文档检索方法、设备及介质。本发明通过获取被检索文档的多层级跨句语义信息,能够挖掘到被检索文档在单词级、句子级再到文档级层面的内在语义的联系,并提取跨句语义信息,为后续在预训练语言模型中进行匹配提供了更为全面的文档特征;通过对模型采用不同比例掩盖处理方式进行预训练,使得模型能够对文档中的单词采用不同的掩盖处理方式,有利于捕捉更重要的内在联系;通过为模型输入被检索文件的多层级跨句语义信息,并结合模型的不同比例掩盖处理方式进一步挖掘语义内在联系,使得模型所得到的特征相似度更为精确,匹配结果也更加准确。此外,本发明还涉及区块链技术,上述被检索文档可存储于区块链中。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文档检索方法、设备及计算机可读存储介质。
背景技术
信息检索一直是自然语言处理中的重要领域。该领域的基本思路是:分别提取检索内容和被检索内容的文档特征,通过相似性算法来获得最匹配的检索内容,被检索内容文档对。而预训练语言模型近年来在文档分类、智能问答、机器阅读、文档摘要等众多自然语言处理领域都取得很好效果,目前主流方法大都以谷歌开源的预训练模型BERT为基础再加以改进,但BERT本身设计存在一些缺陷,例如:训练时对语料中句子随机位置的单词进行掩盖,模型假设各个单词之间互相是独立的,但实际上很多单词之间隐含了丰富的语义特征,BERT的做法丢失了很多内在语义特征,导致后续任务精度的下降;简单地将单词的词嵌入向量,位置向量等向量相加,作为transformer模型的输入向量,对句子乃至整个文档内在的语义关联度考虑不够全面等。现有方法在这两点上基本继承了BERT原来的处理思路,因此依然存在着精确度不高的问题。
发明内容
本发明的主要目的在于提供一种文档检索方法、设备及计算机可读存储介质,旨在解决现有的基于预训练语言模型的检索精确度不高的技术问题。
为实现上述目的,本发明提供一种文档检索方法,所述文档检索方法包括以下步骤:
获取被检索文档经整合后所得的被检索文档矩阵,并基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息,以得到包含所述多层级跨句语义信息的第一输入向量;
获取包含有预设检索文档库中若干检索文档的多层级跨句语义信息的第二输入向量集,并将所述第一输入向量与所述第二输入向量集作为采用不同比例掩盖处理方式训练后的预训练语言模型的输入,得到所述第一输入向量与所述第二输入向量集之间的特征相似度,以基于所述特征相似度确定出与所述被检索文档相匹配的目标检索文档。
可选地,所述基于所述被检索文档矩阵提取所述被检索文档的多层级跨句语义信息,以得到包含所述多层级跨句语义信息的第一输入向量,包括:
获取所述被检索文档矩阵的词向量与位置向量;
基于词频-逆文档频率算法与命名实体识别技术,得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合;
基于长短时记忆网络模型,对所述目标备选词集合中的每一备选词进行编码,以得到所述被检索文档矩阵的邻接语义向量;
将所述词向量、所述位置向量与所述邻接语义向量作为所述第一输入向量,其中,所述第一输入向量存储于区块链中。
可选地,所述基于词频-逆文档频率算法与命名实体识别技术,得到用于获取所述被检索文档矩阵的邻接语义向量的目标备选词集合,包括:
使用词频-逆文档频率算法对所述被检索文档矩阵中的词序列进行加权处理,生成所述被检索文档矩阵对应的词频-逆文档频率属性队列;
对所述被检索文档矩阵的每一词序列进行词性分析,得到所述被检索文档矩阵对应的词性频率属性队列;
使用命名实体识别技术,识别所述被检索文档矩阵中每一语句序列的实体,并结合预设知识图谱三元组,得到所述被检索文档矩阵对应的实体共现频率属性队列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011215045.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混凝土加工用搅拌装置
- 下一篇:一种无框车窗的控制方法、装置、系统及介质