[发明专利]用于标注样本的方法有效
申请号: | 201810303792.8 | 申请日: | 2018-04-03 |
公开(公告)号: | CN110348465B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 肖晗;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V10/762;G06V10/774;G06V10/764 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;刘敏 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 标注 样本 方法 | ||
1.一种计算机实现的对多个样本进行标注的方法,包括:
对所述多个样本中的每个样本提取特征向量;
针对每个样本:
针对多个已知类别中的每个已知类别,确定所述样本的特征向量与属于所述已知类别的多个样本的特征向量之间的距离,并且计算所确定的多个距离的平均值;
当所述平均值小于预定阈值时,将所述样本标注为所述已知类别;以及
当所述样本未被标注为所述多个已知类别中的任何已知类别时,将所述样本分类为未知类别;
针对被分类为未知类别的多个样本:
生成所述未知类别的多个样本的层次1至层次n的表示,其中n1,其中,层次1的表示包括多个层次1样本团,层次i的表示包括至少一个层次i样本团,层次i-1的表示包括至少两个层次i-1样本团,其中2≤i≤n,其中,每个层次i样本团包含多个层次i-1样本团,每个层次1样本团包含多个样本;
针对层次1至层次n中的每个层次,显示所述层次的表示中所包括的各个样本团,其中,单个样本团所包含的所有样本被显示为一个页面;以及
将用户在所述页面中选择的多个样本标注为同一类别。
2.根据权利要求1所述的方法,其中,在单个层次i样本团所包含的样本被显示的页面中,属于所述单个层次i样本团中包含的同一个层次k样本团的样本被显示为彼此相邻,其中1≤k≤i-1。
3.根据权利要求1所述的方法,还包括:
根据用户对被标注为所述已知类别的样本的检查结果,将不应被标注为所述已知类别的样本分类为所述未知类别。
4.根据权利要求1所述的方法,还包括:
针对被分类为未知类别的多个样本,
确定每个样本的特征向量与其他各个样本的特征向量之间的距离,并且将所述样本与距离最近的一个或多个其他样本形成为一个层次1样本团,以及
针对每个层次i-1样本团,确定所述层次i-1样本团与其他各个层次i-1样本团之间的特征向量距离,并且将所述层次i-1样本团与距离最近的一个或多个其他层次i-1样本团形成为一个层次i样本团。
5.根据权利要求4所述的方法,还包括:
当距离最近的其他样本已包含在特定的层次1样本团中时,将所述样本包含在所述特定的层次1样本团中。
6.根据权利要求4所述的方法,还包括:
当距离最近的其他层次i-1样本团已包含在特定的层次i样本团中时,将所述层次i-1样本团包含在所述特定的层次i样本团中。
7.根据权利要求4所述的方法,还包括:
分别确定所述层次i-1样本团中包含的每个样本的特征向量与其他层次i-1样本团中包含的每个样本的特征向量之间的距离;以及
计算所确定的多个距离的平均值,作为所述层次i-1样本团与所述其他层次i-1样本团之间的特征向量距离。
8.根据权利要求1所述的方法,还包括:
计算属于同一已知类别的多个样本的特征向量之间的距离,作为同类样本距离,并且计算多个所述同类样本距离的平均值,作为同类平均距离;
计算属于不同已知类别的多个样本的特征向量之间的距离,作为异类样本距离,并且计算多个所述异类样本距离的平均值,作为异类平均距离;以及
选择大于所述同类平均距离且小于所述异类平均距离的值作为所述预定阈值。
9.根据权利要求1所述的方法,还包括:
将用户在所述页面中选择的多个样本进行合并;以及
在所述页面中仅显示被合并的多个样本中的一个样本,作为被合并的多个样本的代表,其中,所述代表被显示为与未合并的样本相区别。
10.根据权利要求9所述的方法,还包括:响应于用户的指令,对所述被合并的多个样本取消合并,并且在所述页面上显示被取消合并的多个样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810303792.8/1.html,转载请声明来源钻瓜专利网。