[发明专利]图片训练样本挖掘方法、装置、终端及计算机可读存储介质有效
申请号: | 201811141183.3 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109242042B | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 孟骧龙;严灿祥 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 11313 北京市铸成律师事务所 | 代理人: | 王珺;武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练样本 图片 描述文本 文本相似度 相似度模型 类别特征 图片查询 图片分类 挖掘 集合 计算机可读存储介质 终端 参数训练 人工成本 生产效率 条件获取 图片内容 图片输入 文本语义 通用 自定义 分类 客户 | ||
1.一种图片训练样本挖掘方法,其特征在于,包括:
根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本;
根据所述图片描述文本训练得到通用文本相似度模型;
利用所述通用文本相似度模型和类别特征参数训练得到垂类模型,所述类别特征参数与根据所述图片描述文本分类得到的训练样本类别相对应;
利用所述垂类模型对所述候选图片进行分类,得到多个候选图片分类集合;
将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本;
所述将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本的步骤包括:
将所述候选图片分类集合中的图片输入至所述文本语义相似度模型中,输出第一图片集合;
利用所述第一图片集合中语义相似度大于第一阈值的图片训练得到所述图片内容相似度模型;
将所述候选图片分类集合中的图片输入至所述图片内容相似度模型中,输出第二图片集合。
2.根据权利要求1所述的方法,其特征在于,利用所述通用文本相似度模型和类别特征参数训练得到垂类模型之前,还包括:
根据所述图片描述文本分类得到多个所述训练样本类别;
在每个所述训练样本类别对应的多个垂类网站中抓取垂类数据,所述垂类数据包括分类后的图片和对应的图片描述文本;
根据所述分类后的图片和图片描述文本提取所述类别特征参数。
3.根据权利要求1所述的方法,其特征在于,输出第二图片集合之后,还包括:
利用所述第二图片集合中语义相似度大于第二阈值的图片训练得到新文本语义相似度模型;
将所述第二图片集合中的图片输入至所述新文本语义相似度模型中,输出第三图片集合;
利用所述第三图片集合中语义相似度大于第三阈值的图片训练得到新图片内容相似度模型;
将所述第二图片集合中的图片输入至所述新图片内容相似度模型中,输出第四图片集合。
4.根据权利要求3所述的方法,其特征在于,输出第四图片集合之后,还包括:
判断所述第四图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致;
若一致,则输出所述第四图片集合,以构成所述图片训练样本;
若不一致,则返回执行将所述第四图片集合中的图片作为所述第二图片集合中的图片的操作,直至输出图片内容相似度和文本语义相似度一致的所述图片训练样本。
5.一种图片训练样本挖掘装置,其特征在于,包括:
候选图片获取模块,用于根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本;
通用文本相似度模型训练模块,用于根据所述图片描述文本训练得到通用文本相似度模型;
垂类模型训练模块,用于利用所述通用文本相似度模型和类别特征参数训练得到垂类模型,所述类别特征参数与根据所述图片描述文本分类得到的训练样本类别相对应;
候选图片分类模块,用于利用所述垂类模型对所述候选图片进行分类,得到多个候选图片分类集合;
样本训练模块,用于将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本;
所述样本训练模块包括:
第一分类单元,用于将所述候选图片分类集合中的图片输入至所述文本语义相似度模型中,输出第一图片集合;
图片内容相似度模型训练单元,用于利用所述第一图片集合中语义相似度大于第一阈值的图片训练得到所述图片内容相似度模型;
第二分类单元,用于将所述候选图片分类集合中的图片输入至所述图片内容相似度模型中,输出第二图片集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811141183.3/1.html,转载请声明来源钻瓜专利网。