[发明专利]一种基于深度学习的无监督文本检索方法有效
申请号: | 202110597764.3 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113254586B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 杨敏;贺倩明;方正 | 申请(专利权)人: | 中国科学院深圳先进技术研究院;深圳得理科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/126;G06F40/216;G06F40/284 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏;朱伟军 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度学习的无监督文本检索方法。该方法包括:对于待查询文本,根据其文本向量与数据库中存储的被匹配文本的文本向量的相似度返回检索结果,其中,被匹配文本的文本向量根据以下步骤生成:对于输入文本,基于注意力机制的预训练模型挖掘词语间的语义联系,将文本序列转换成词向量序列;对于得到的词向量序列,结合领域内词汇的平滑逆频率对词向量进行加权,生成第一文本向量,其中所述领域内词汇的平滑倒频率反映词语在领域文献中的出现次数;获取领域内文本向量的主成分,并从所述第一文本向量中减去对应的主成分,获得第二文本向量,作为文本向量存储。利用本发明能够提升检索的准确性和效率。 | ||
搜索关键词: | 一种 基于 深度 学习 监督 文本 检索 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院;深圳得理科技有限公司,未经中国科学院深圳先进技术研究院;深圳得理科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110597764.3/,转载请声明来源钻瓜专利网。