[发明专利]数据标注方法、装置、设备及计算机存储介质在审
申请号: | 201911157705.3 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110929119A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 张金贺;徐安华 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/907 | 分类号: | G06F16/907 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 孔默 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 标注 方法 装置 设备 计算机 存储 介质 | ||
本申请提供一种数据标注方法、装置、设备及计算机存储介质,涉及数据标注技术领域。本申请实施例通过采用伺服模型,从待标注样本数据中提取目标样本数据,展示目标样本数据,并采集用户对目标样本数据进行标注后的样本数据,然后根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化,避免了模型优化过程与对待标注样本数据进行预测提取目标样本数据的过程,在时间角度上互斥的问题,大大缩短了数据标注过程和模型优化过程共同占用的时间,提高了时间利用率。
技术领域
本申请涉及数据标注技术领域,具体而言,涉及一种数据标注方法、装置、设备及计算机存储介质。
背景技术
深度学习技术被广泛应用于人脸识别、视频行为分析、智能客服、文本生成、机器翻译、信息抽取等与图像处理和自然语言处理相关的领域中,为人们的生产和生活带来了极大的便利。深度学习主要依赖于通过学习网络对大量有效标注的数据进行学习建模而实现,如新闻分类任务依赖于大量的带有标签的新闻数据,风险主体识别任务依赖于大量带有实体标注的数据等。
目前,构建深度学习模型时,获取标注数据的方式通常为:各大型公司或组织往往大量的资源雇佣标注者团队,以获取到大规模的标注数据。为了减少标注成本,现有技术中根据预测模型和样本价值函数挖掘出待标注样本中最有价值的样本数据让标注者进行标注,以最小的标注代价产生最高的数据价值,从而减少标注成本;另外,还需要用标注后的样本数据对预测模型继续进行优化训练、提升预测模型的性能。
但是,上述技术中,采用预测模型和样本价值函数挖掘有价值样本数据的过程和利用标注后的样本数据对预测模型进行优化的过程,在时间角度上是互斥的,即,预测模型在优化期间无法实现对有价值样本数据的挖掘,导致现有的数据标注方法的时间利用率低下。
发明内容
本申请的目的在于,提供一种数据标注方法、装置、设备及计算机存储介质,可以解决现有技术中,采用预测模型和样本价值函数挖掘有价值样本数据的过程和利用标注后的样本数据对预测模型进行优化的过程,在时间角度上互斥而导致的时间利用率低下的问题。
第一方面,本申请实施例提供一种数据标注方法,该方法包括:
采用伺服模型,从待标注样本数据中提取目标样本数据;
展示目标样本数据,并采集用户对目标样本数据进行标注后的样本数据;
根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化。
可选地,上述根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化,包括:
根据标注后的样本数据,确定标注后的样本数据的数据特性;
根据标注后的样本数据的数据特性,采用预设增量学习规则对伺服模型进行优化。
可选地,上述根据标注后的样本数据,采用预设增量学习规则对伺服模型进行优化,包括:根据标注后的样本数据,采用反向传播算法,对伺服模型进行参数更新。
可选地,上述采用伺服模型,从待标注样本数据中提取目标样本数据,包括:
采用伺服模型,对待标注样本数据进行预测,获取待标注样本数据的预测标注信息;
根据待标注样本数据的预测标注信息,从待标注样本数据中提取目标样本数据。
可选地,上述根据待标注样本数据的预测标注信息,从待标注样本数据中提取目标样本数据,包括:
根据待标注样本数据的预测标注信息,采用预设的样本价值函数,对待标注样本数据进行价值排序;
根据排序结果,从待标注样本数据中确定目标样本数据。
可选地,上述采用伺服模型,从待标注样本数据中提取目标样本数据之前,该方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911157705.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置