[发明专利]用于标注样本的方法有效
申请号: | 201810303792.8 | 申请日: | 2018-04-03 |
公开(公告)号: | CN110348465B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 肖晗;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V10/762;G06V10/774;G06V10/764 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;刘敏 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 标注 样本 方法 | ||
公开了用于标注样本的方法和设备。该方法包括:对多个样本中的每一个提取特征向量;针对每个样本,确定其是否属于多个已知类别中的一个,当其不属于任何已知类别时,将该样本分类为未知类别;针对被分类为未知类别的多个样本:生成该多个样本的层次1至层次n的表示,n1,其中层次1的表示包括多个层次1样本团,层次i的表示包括至少一个层次i样本团,层次i‑1的表示包括至少两个层次i‑1样本团,2≤i≤n,每个层次i样本团包含多个层次i‑1样本团,每个层次1样本团包含多个样本;针对每个层次,显示该层次的表示中所包括的样本团,其中单个样本团包含的所有样本被显示为一个页面;将用户在页面中选择的多个样本标注为同一类别。
技术领域
本发明涉及用于对样本进行标注的方法和设备,更具体地,涉及由计算机辅助以减少人力劳动量的标注样本的方法和设备。
背景技术
当前的人工智能技术主要依靠深度学习网络。为了训练这些网络,需要大量的已标注数据。已标注数据是指已经被标注为属于某一类别的数据。然而,这些数据一般是通过人工来标注的,由于数据量巨大,因此人工标注是一件费时费力的工作。
为了减少人力工作量,可以采用计算机辅助的标注方法。然而,目前商业可用的计算机辅助标注工具非常少,尤其是针对汉字的标注工具更是罕见。
因此,期望的是,提供能够大大降低人工标注的工作量的可靠高效的计算机辅助标注方法。
发明内容
针对上述技术问题,本发明提供了一种计算机实现的对多个样本进行标注的方法,所述方法包括:对所述多个样本中的每个样本提取特征向量;针对每个样本:针对多个已知类别中的每个已知类别,确定所述样本的特征向量与属于所述已知类别的多个样本的特征向量之间的距离,并且计算所确定的多个距离的平均值;当所述平均值小于预定阈值时,将所述样本标注为所述已知类别;以及当所述样本未被标注为所述多个已知类别中的任何已知类别时,将所述样本分类为未知类别;针对被分类为未知类别的多个样本:生成所述未知类别的多个样本的层次1至层次n的表示,其中 n1,其中,层次1的表示包括多个层次1样本团,层次i的表示包括至少一个层次i样本团,层次i-1的表示包括至少两个层次i-1样本团,其中 2≤i≤n,其中,每个层次i样本团包含多个层次i-1样本团,每个层次1 样本团包含多个样本;针对层次1至层次n中的每个层次,显示所述层次的表示中所包括的各个样本团,其中,单个样本团所包含的所有样本被显示为一个页面;以及将用户在所述页面中选择的多个样本标注为同一类别。
在另一个方面,本发明提供了一种用于对多个样本进行标注的设备,所述设备包括:存储器;以及处理器,所述处理器被配置为执行如上所述的用于对多个样本进行标注的方法。
在又一个方面,本发明提供了一种存储有程序的记录介质,所述程序在被计算机执行时,使得计算机实现如上所述的用于对多个样本进行标注的方法。
附图说明
图1是根据本发明的由计算机辅助的标注样本的方法的流程图。
图2是实现图1中的步骤S104的处理的流程图。
图3是实现图1中的步骤S106的处理的流程图。
图4A示出了用于标注样本的用户操作界面的一个示例。
图4B示出了用户操作界面的另一个示例。
图5示意地示出了一个层次6样本团的结构。
图6-图28示出了用于实现图1的步骤S106的聚类的数据结构。
图29-图38示出了使用图28的聚类结果来标注样本的数据结构。
图39示出了实现本发明方案的计算机硬件的示例性配置框图。
具体实施方式
图1示出了根据本发明的由计算机辅助的标注样本的方法的总体流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810303792.8/2.html,转载请声明来源钻瓜专利网。