[发明专利]一种深度哈希检索方法、设备及介质在审
申请号: | 202010250546.8 | 申请日: | 2020-04-01 |
公开(公告)号: | CN111522903A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 姚洪磊;乔廷慧;李锐 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 北京君慧知识产权代理事务所(普通合伙) 11716 | 代理人: | 董延丽 |
地址: | 250100 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 检索 方法 设备 介质 | ||
本申请公开了一种深度哈希检索方法、设备及介质,方法包括:确定通过多组训练样本以及预设算法预先生成的哈希检索模型;通过哈希检索模型生成并存储各文章对应的哈希码;确定用户输入的待检索文章,并通过哈希检索模型输出待检索文章的哈希码;根据待检索文章的哈希码,以及存储的各文章对应的哈希码,确定检索结果。通过预设算法来训练生成哈希检索模型,使得哈希检索模型在针对用户输入的待检索文章时,能够有效考虑文章中所包含的内容,提高了生成的哈希码的质量,也提高了最终检索的精确度,提升了用户体验。可以充分挖掘不同模态之间的互补信息,相比于单一的通过文本模态的检测方法更具有鲁棒性。
技术领域
本申请涉及检索领域,具体涉及一种深度哈希检索方法、设备及介质。
背景技术
近年来,随着互联网的快速发展,多媒体数据(例如图片、文本、视频、 音频等)呈现出爆炸式的增长,如何从浩如烟海的数据流中找寻出需要的信息 成为当下研究的热门话题。
通常情况下,人们有需要查阅相关资料时,会根据手中已有的文章来检索 同领域的相关文章。但是在进行检索时,如果仅根据文章标题或摘要来进行检 索,结果往往不够全面,而认为的阅读整篇文章后再检索则耗时太多。一般解 决的方案是通过用户输入关键词进行检索,然后返回包含关键词的文章。但是, 当用户给的关键词不够准确或不够充分时,得到的查询结果往往差强人意。
发明内容
为了解决上述问题,本申请提出了一种深度哈希检索方法,包括:确定通 过多组训练样本以及预设算法预先生成的哈希检索模型,其中,所述预设算法 用于将所述训练样本中的文本模态的数据转换为向量,每组所述训练样本中包 括锚点样本、正例样本和负例样本,所述训练样本包括多种模态的数据;通过 所述哈希检索模型生成并存储各文章对应的哈希码,其中,所述文章中至少包 括一种所述模态的数据;确定用户输入的待检索文章,并通过所述哈希检索模 型输出所述待检索文章的哈希码;根据所述待检索文章的哈希码,以及存储的 所述各文章对应的哈希码,确定检索结果。
在一个示例中,训练生成所述哈希检索模型时,所述方法还包括:在所有 的训练样本中选取一篇文章作为锚点样本;在所有的训练样本中,选取与所述 锚点样本相似程度高于第一阈值的文章作为正例样本,选取与所述锚点样本相 似程度低于第二阈值的文章作为负例样本;将所述锚点样本、所述正例样本、 所述负例样本作为一组训练样本,用于训练所述哈希检索模型。
在一个示例中,训练生成所述哈希检索模型时,所述方法还包括:通过不 包含全连接层的卷积神经网络提取所述训练样本中图像模态数据的图像特征; 和/或通过所述预设算法提取所述训练样本中文本模态数据的文本特征。
在一个示例中,训练生成所述哈希检索模型时,所述方法还包括:将所述 图像特征和/或所述文本特征输入至全连接网络中,生成所述训练样本对应的哈 希码,其中,所述全连接网络中包括至少一个全连接层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010250546.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频处理方法、移动终端及可读存储介质
- 下一篇:一种半导体芯片的溅镀治具