[发明专利]训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置在审
申请号: | 201711250961.8 | 申请日: | 2017-12-01 |
公开(公告)号: | CN110019889A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 董国盛;周泽南;苏雪峰;佟子健 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/58 | 分类号: | G06F16/58 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练特征 特征提取模型 文本特征 相关装置 训练样本 样本查询 样本图片 查询词 文本 提取图像特征 图片 特征向量 图像特征 自动学习 映射 准确率 抽取 采集 学习 | ||
本发明实施例提供了训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置,训练特征提取模型的方法包括:采集训练样本,所述训练样本包括样本图片与样本查询词;从所述样本图片中提取图像特征;从所述样本查询词中提取文本特征;根据所述图像特征与所述文本特征训练特征提取模型。提供将文本与图片分别抽取特征向量映射到一个空间的功能,可以直接确定文本与图片之间的相关性,随着特征提取模型的自动学习、持续学习,可以提高特征提取模型的准确率,从而提高相关性计算的准确性。
技术领域
本发明涉及计算机处理的技术领域,特别是涉及一种训练特征提取模型的方法、一种基于特征提取模型计算图片与查询词相关性系数的方法、一种训练特征提取模型的装置、一种基于特征提取模型计算图片与查询词相关性系数的装置、一种用于训练特征提取模型的装置、一种用于基于特征提取模型计算图片与查询词相关性系数的装置。
背景技术
随着网络的迅速发展,网络信息急剧增加。用户为了在海量的网络信息中寻找所需的网络信息,通常使用搜索引擎进行搜索。
这些网络信息中包含了大量的图片,用户在搜索引擎中输入查询词(即query),意图搜索相关的图片,搜索引擎计算查询词与图片数据之间的相关性,返回搜索到的图片给用户。
为了计算查询词与图片之间的相关性,目前是搜索图片的相关文本,包括图片所在网页的标题、文章标题、替换文本、描述文本和环绕文本等,通过索引和检索图片的相关文本,实现图片搜索的功能。
但是,从网页上提取图片的相关文本难以保证质量,甚至很多情况下,网页里没有图片的相关文本,导致难以根据查询词查找到相关的图片。
发明内容
鉴于上述问题,为了解决上述图片的相关文本质量低引起查找文本相关图片困难的问题,本发明实施例提出了一种训练特征提取模型的方法、一种基于特征提取模型计算相关性系数的方法、一种训练特征提取模型的装置、一种基于特征提取模型计算相关性系数的装置、一种用于训练特征提取模型的装置、一种用于基于特征提取模型计算相关性系数的装置。
为了解决上述问题,本发明实施例公开了一种训练特征提取模型的方法,包括:
采集训练样本,所述训练样本包括样本图片与样本查询词;
从所述样本图片中提取图像特征;
从所述样本查询词中提取文本特征;
根据所述图像特征与所述文本特征训练特征提取模型。
可选地,所述训练样本包括正训练样本、负训练样本;
所述正训练样本中的样本图片与样本查询词具有相关性;
所述负训练样本中的样本图片与样本查询词不具有相关性。
可选地,所述采集训练样本,包括:
获取输入的查询词,将所述查询词作为所述正训练样本的样本查询词;
获取所述查询词对应的图片数据;
基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片。
可选地,所述基于针对所述图片数据的搜索行为,将满足预设条件的所述图片数据设置为所述正训练样本的样本图片,包括:
查询所述图片数据基于所述查询词进行点击的点击率和/或进行展现的展现率;
查询所述查询词所属的词类别,确定所述词类别对应的点击阈值和/或展现阈值;
判断所述点击率和/或所述展现率是否大于所述点击阈值和/或所述展现阈值;若是,则确定所述样本图片数据为所述正训练样本的样本图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711250961.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索方法及装置
- 下一篇:一种移动终端的照片匹配方法