[发明专利]用于标注数据的方法和装置在审
申请号: | 201811157319.X | 申请日: | 2018-09-30 |
公开(公告)号: | CN109325213A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 沈科;曲景影;杨闰哲;于倩;宝腾飞 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标数据 标签选取 标注 词语 方法和装置 标签信息 指向 关系信息 获取数据 目标标签 时间成本 数据标注 响应 检测 标签 关联 节约 申请 展示 | ||
本申请实施例公开了用于标注数据的方法和装置。该方法的一具体实施方式包括:响应于接收到用户的数据标注请求,获取数据标注请求所指向的至少一条目标数据,以及与用户相关联的标签信息;展示该至少一条目标数据和标签信息;检测对应目标数据或目标数据中的词语的标签选取操作;响应于检测到标签选取操作,生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息。该实施方式可以使用户通过在界面上执行标签选取操作来为目标数据或目标数据中的词语设置对应的标签,提高了用户的标注效率,节约了时间成本。
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于标注数据的方法和装置。
背景技术
在对机器学习模型进行训练之前,通常需要准备训练数据,对训练数据进行标注。现有的人工标注方式通常是,标注人员在元数据管理系统中为训练数据设置对应的标签字段。而后对于每条训练数据,标注人员根据自己的经验确定与该训练数据对应的标签,将该标签作为该训练数据在该标签字段下的值。这种人工标注方式通常会耗费较高的时间成本。
发明内容
本申请实施例提出了用于标注数据的方法和装置。
第一方面,本申请实施例提供了一种用于标注数据的方法,该方法包括:响应于接收到用户的数据标注请求,获取数据标注请求所指向的至少一条目标数据,以及与用户相关联的标签信息;展示上述至少一条目标数据和标签信息;检测对应目标数据或目标数据中的词语的标签选取操作;响应于检测到标签选取操作,生成用于表征标签选取操作所指向的目标标签和所对应的目标数据或词语之间的对应关系的对应关系信息。
在一些实施例中,上述方法还包括:若标签选取操作对应目标数据中的词语,则在标签选取操作所对应的词语的设定位置展示目标标签。
在一些实施例中,在检测对应目标数据或目标数据中的词语的标签选取操作之前,上述方法还包括:获取与上述至少一条目标数据分别对应的预测标注结果;展示预测标注结果,以辅助用户进行数据标注。
在一些实施例中,上述至少一条目标数据中存在已对应实际标注结果的已标注数据;以及在检测对应目标数据或目标数据中的词语的标签选取操作之前,上述方法还包括:获取已标注数据所关联的实际标注结果并进行展示。
在一些实施例中,在检测对应目标数据或目标数据中的词语的标签选取操作之前,上述方法还包括:将已标注数据所对应的预测标注结果和实际标注结果进行比对,生成比对结果,以及展示比对结果。
在一些实施例中,标签信息包括用户的自定义标签,自定义标签是通过以下获取步骤获取的:响应于接收到用户的标签创建请求,展示标签创建界面;获取用户在标签创建界面上输入的标签;将该标签作为用户的自定义标签进行存储。
第二方面,本申请实施例提供了一种用于标注数据的装置,该装置包括:获取单元,被配置成响应于接收到用户的数据标注请求,获取数据标注请求所指向的至少一条目标数据,以及与用户相关联的标签信息;展示单元,被配置成展示上述至少一条目标数据和标签信息;检测单元,被配置成检测对应目标数据或目标数据中的词语的标签选取操作;生成单元,被配置成响应于检测到标签选取操作,生成用于表征标签选取操作所指向的目标标签和所对应目标数据或词语之间的对应关系的对应关系信息。
在一些实施例中,上述装置还包括:第一展示单元,被配置成若标签选取操作对应目标数据中的词语,则在标签选取操作所对应的词语的设定位置展示目标标签。
在一些实施例中,上述装置还包括:第一获取单元,被配置成获取与上述至少一条目标数据分别对应的预测标注结果;第二展示单元,被配置成展示预测标注结果,以辅助用户进行数据标注。
在一些实施例中,上述至少一条目标数据中存在已对应实际标注结果的已标注数据;以及上述装置还包括:第三展示单元,被配置成获取已标注数据所关联的实际标注结果并进行展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811157319.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息交互方法、装置、电子设备及浏览器
- 下一篇:一种图纸标注方法及系统