[发明专利]聚类模型的训练方法、装置、电子设备和计算机存储介质有效
申请号: | 201710384721.0 | 申请日: | 2017-05-26 |
公开(公告)号: | CN108228684B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 曹凯迪;何悦;李诚 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06K9/62 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 装置 电子设备 计算机 存储 介质 | ||
1.一种聚类模型的训练方法,其特征在于,包括:
通过聚类模型及已聚类照片,对新增照片进行聚类处理,得到所述新增照片的聚类结果,所述新增照片携带有类别标记;
基于所述新增照片的所述聚类结果及所述类别标记,计算所述聚类结果的回报函数值;其中,所述回报函数值由短期回报函数值和长期回报函数值获得;所述短期回报函数值用于表征在聚类处理过程中两类照片的合并操作是否正确,所述长期回报函数值用于表征所述聚类结果与人工分类结果之间的差异;
根据所述聚类结果的回报函数值,对所述聚类模型进行训练。
2.根据权利要求1所述的方法,其特征在于,还包括:
从样本相册中抽取部分照片,作为所述已聚类照片;其中,所述样本相册中的照片均标注有类别信息;
从所述样本相册中除所述部分照片之外的其他照片中,抽取至少一个照片作为所述新增照片。
3.根据权利要求2所述的方法,其特征在于,所述从样本相册中抽取部分照片,作为所述已聚类照片,包括:
分别针对所述样本相册中的每个相册,按照预设概率进行抽样,将抽样结果的总和作为所述已聚类照片;或者
基于所述样本相册中各照片对应的类别信息,按照长尾分布规则对所述样本相册中的照片进行抽样,将抽样结果作为所述已聚类照片。
4.根据权利要求1所述的方法,其特征在于,所述得到所述新增照片的聚类结果,包括:
将所述新增照片聚类到已聚类照片中的任意一个类别中;或,
将所述新增照片聚类到一个新增类别中。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述通过聚类模型及已聚类照片,对新增照片进行聚类处理,得到所述新增照片的聚类结果,包括:
分别针对所述新增照片中的两张照片之间的边,和所述新增照片与所述已聚类照片的两类照片中的两张照片之间的边,计算各边的距离;
按照距离由小到大的顺序对计算得到的所述边进行排序,生成边表,所述边表中包括各边及其对应的两张照片或两类照片、以及边的距离;
通过聚类模型判断所述边表中排序最靠前的边对应的两张照片或两类照片是否应该合并;
若判断排序最靠前的边对应的两张照片或两类照片应该合并,对所述排序最靠前的边对应的两张照片或两类照片进行合并,并判断合并之后排序最靠前的边对应的两张照片或两类照片是否应该合并,直至判断结果为排序最靠前的边对应的两张照片或两类照片不应该合并为止。
6.根据权利要求5所述的方法,其特征在于,所述按照距离由小到大的顺序对计算得到的所述边进行排序,生成边表之后,还包括:
将边表中,将对应的一张照片属于所述已聚类照片的边的排序,调整至对应的两张照片均属于所述已聚类照片的边之前,并对对应的一张照片属于所述已聚类照片的各边按照距离由小到大的顺序排序。
7.根据权利要求6所述的方法,其特征在于,基于所述新增照片的所述聚类结果,计算所述聚类结果的回报函数值,包括:
比较所述新增照片的人工分类结果与所述聚类结果,分别获取对各边的操作对应的短期回报函数值、以及长期回报函数值;
根据所述短期回报函数值、所述长期回报函数值、以及短期回报函数值和长期回报函数值之间的预设配比系数进行计算,获得所述聚类结果的回报函数值。
8.根据权利要求7所述的方法,其特征在于,获取对边的操作对应的短期回报函数值,包括:
基于所述聚类模型,将两张照片或两类照片是否应该合并的判断结果与相应对错监督值之间的乘积,作为对该边的操作对应的短期回报函数值;其中,所述对错监督值包括正确监督值及错误监督值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710384721.0/1.html,转载请声明来源钻瓜专利网。