[发明专利]数据标注方法、系统、计算机设备和存储介质在审
申请号: | 201910862671.1 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110750523A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 王丹丹 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/23;G06F16/28;G06K9/62 |
代理公司: | 11111 北京市万慧达律师事务所 | 代理人: | 刘艳丽 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 预测 数据标注 计算机设备 随机场模型 存储介质 当前条件 数据包括 数据一致 校验 聚类 去噪 申请 | ||
本申请涉及一种数据标注方法、系统、计算机设备和存储介质。所述方法包括:获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。采用本方法能够提高数据标注的准确性和效率。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据标注方法、系统、计算机设备和存储介质。
背景技术
如今人工智能技术已经广泛应用在智能控制、机器人学、自动化技术、语言和图像理解、娱乐、医学等领域,代替人工从事部分繁琐的事务。人工智能算法需要学习海量的标注数据,才能够进行自主识别和做出决策,这就需要对原始数据进行数据标注。数据标注是指对文本、图片、语音等原始数据进行描述或者标记的过程,数据标注的质量很大程度上会影响人工智能的智能化水平。
现有的数据标注过程中,需要手动将待标注数据任务拆分成多个子任务并分发给多个标注者,各个标注者分别对自己负责的子任务进行标注,所有子任务的标注工作完成后,将各标注者标注后的数据汇总保存。标注工作繁琐枯燥,数据标注的效率差,而且工作标注数据的质量受标注人员的主观因素影响较大,标注数据的准确度低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据标注准确度的数据标注方法、系统、计算机设备和存储介质。
一种数据标注方法,所述方法包括:
获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;
对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;
采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;
根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。
在其中一个实施例中,所述方法还包括:
根据所述正确标注数据,构建正确标注数据集;
采用所述正确标注数据集对所述当前条件随机场模型进行训练,得到第一条件随机场模型;
将所述第一条件随机场模型设为所述当前条件随机场模型。
在其中一个实施例中,所述采用所述正确标注数据集对所述当前条件随机场模型进行训练,得到第一条件随机场模型,包括:
对所述正确标注数据集进行预处理,得到输入序列和输出序列;
根据所述当前条件随机场模型、所述输入序列和所述输出序列,得到所述第一条件随机场模型。
在其中一个实施例中,所述对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据,包括:
对所述第一标注数据中的变量分布进行假设,得到第一分布参数或第一分布模型;
采用所述第一标注数据对所述第一分布参数或所述第一分布模型进行拟合或训练,得到第二分布参数或第二分布模型;
根据所述第一标注数据与所述第二分布参数或所述第二分布模型,得到第二标注数据。
在其中一个实施例中,所述方法还包括:
对所述第一标注数据进行存储,得到离线标注数据集;
采用所述离线标注数据集对所述当前条件随机场模型进行训练,得到第二条件随机场模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910862671.1/2.html,转载请声明来源钻瓜专利网。