[发明专利]一种基于深度学习的长文本检索系统及方法有效
申请号: | 202011435229.X | 申请日: | 2020-12-10 |
公开(公告)号: | CN112632216B | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 李杰坷;杨敏;李成明;贺倩明 | 申请(专利权)人: | 深圳得理科技有限公司;中国科学院深圳先进技术研究院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/903;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 范盈 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 文本 检索系统 方法 | ||
1.一种基于深度学习的长文本检索系统,其特征在于,所述长文本检索系统包括:
交互特征提取模块,用于对长文本文档进行分段,将得到的文本片段与用户输入的搜索请求数据进行拼接,并输入至基本特征提取器中,提取文本片段交互特征,其中,所述基本特征提取器通过预设的掩膜机制提取所述文本片段交互特征;
交互特征聚合模块,用于对所述文本片段交互特征进行聚合,得到聚合文本片段交互特征;
输出模块,用于将所述聚合文本片段交互特征输入至匹配得分计算器中,计算所述搜索请求数据和所述长文本文档的匹配得分;
其中,所述交互特征聚合模块执行以下操作:
将所述文本片段交互特征进行拼接,得到第一文本片段交互特征序列;
将所述第一文本片段交互特征序列输入至循环神经网络进行处理,得到第二文本片段交互特征序列;
对所述第二文本片段交互特征序列进行平均,得到平均文本片段交互特征;
采用所述平均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算,得到聚合文本片段交互特征。
2.根据权利要求1所述的一种基于深度学习的长文本检索系统,其特征在于,所述交互特征提取模块具体用于实现如下操作:
对长文本文档进行分段,并获取得到的文本片段的字符向量序列;
获取用户输入的搜索请求数据,及搜索请求数据的字符向量序列;
将所述文本片段的字符向量序列与所述搜索请求数据的字符向量序列进行拼接,得到输入字符向量序列;
对所述输入字符向量序列采用预设的掩膜机制进行处理,得到掩膜向量,其中,所述预设的掩膜机制包括普通的掩膜机制和基于匹配字符的掩膜机制,所述掩膜向量包括普通掩膜向量和基于匹配字符的掩膜向量;
将所述输入字符向量序列和所述普通掩膜向量以及所述基于匹配字符的掩膜向量同时输入至所述基本特征提取器中,提取所述文本片段交互特征。
3.根据权利要求2所述的一种基于深度学习的长文本检索系统,其特征在于,所述基本特征提取器具体为基于注意力的双向编码器,通过所述基于注意力的双向编码器的自注意力结构和所述基于匹配字符的掩膜机制的结合,查询所述搜索请求数据的字符向量序列与所述文本片段的字符向量序列中完全匹配的字符,提取所述文本片段交互特征。
4.根据权利要求2所述的一种基于深度学习的长文本检索系统,其特征在于,提取所述文本片段交互特征采用的公式具体如下
vi=BERT([Q;Pi],M1,M2),
其中,i的取值范围为1,2,3,...,n,vi表示文本片段交互特征,Q表示搜索请求数据的字符向量序列,Pi表示文本片段的字符向量序列,M1表示普通掩膜向量,M2表示基于匹配字符的掩膜向量。
5.根据权利要求1所述的一种基于深度学习的长文本检索系统,其特征在于,采用所述平均文本片段交互特征对所述第一文本片段交互特征序列进行注意力机制的计算,得到聚合文本片段交互特征,具体公式如下:
A=soft max(V*VmeanT),
Vagg=sum(V*A),
其中,A表示注意力向量,Vagg表示聚合文本片段交互特征,V表示第一文本片段交互特征序列,Vmean表示平均文本片段交互特征。
6.根据权利要求1所述的一种基于深度学习的长文本检索系统,其特征在于,所述匹配得分计算器具体为全连接神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳得理科技有限公司;中国科学院深圳先进技术研究院,未经深圳得理科技有限公司;中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011435229.X/1.html,转载请声明来源钻瓜专利网。