[发明专利]提供标签的方法、装置、设备及可读存储介质有效
申请号: | 201910122128.8 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109816047B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 张志伟;夏雨;赵伟阳 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06K9/62;G06F16/22 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提供 标签 方法 装置 设备 可读 存储 介质 | ||
本申请公开了一种提供标签的方法、装置、设备及可读存储介质,属于深度学习技术领域。方法包括:基于深度学习模型预测目标内容的第一标签;根据第一标签获取与第一标签具有相关性的第二标签;将第一标签和第二标签作为目标内容的标签提供给标注系统进行标注。通过深度学习模型预测目标内容的第一标签,由于该第一标签比默认标签的标注精度要高,从而可以提高提供给标注系统的标签的准确率。此外,将第一标签和与第一标签具有相关性的第二标签作为目标内容的标签提供给标注系统,进一步提高了标注数据的可用比例,从而节省标注资源。
技术领域
本公开涉及深度学习技术领域,尤其涉及一种提供标签的方法、装置、设备及可读存储介质。
背景技术
近年来,深度学习在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用,在应用深度学习的过程中,需要为目标内容设置标签,将目标内容的标签提供给标注系统,以对该目标内容进行标注得到标注数据,从而基于大量的标注数据生成深度学习模型。
以目标内容为图像为例,相关技术在提供标签时,出于页面篇幅以及标注人员可操作性的考虑,一般系统会随机的给图像提供一个默认的标签,将该默认的标签提供给标注系统,由标注人员对该图像的默认标签进行标注。
然而,由于相关技术仅采用默认的标签来进行标注,该默认的标签有时候不太准确,导致标注系统中标注数据的可用率低。
发明内容
本公开提供一种提供标签的方法、装置、设备及可读存储介质,以克服相关技术中存在的问题。
根据本公开实施例的第一方面,提供一种提供标签的方法,包括:
基于深度学习模型预测目标内容的第一标签;
根据所述第一标签获取与所述第一标签具有相关性的第二标签;
将所述第一标签和所述第二标签作为所述目标内容的标签提供给标注系统进行标注。
可选地,所述根据所述第一标签获取与所述第一标签具有相关性的第二标签,包括:
根据所述第一标签获取与所述第一标签具有相关性的语义标签;
根据所述第一标签获取与所述第一标签具有相关性的混淆标签;
将所述语义标签和/或混淆标签作为与所述第一标签具有相关性的第二标签。
可选地,所述根据所述第一标签获取与所述第一标签具有相关性的语义标签,包括:
获取词向量模型,根据所述词向量模型获取所述第一标签的标签词向量;
获取词库,计算所述标签词向量与所述词库中每一个词的词向量之间的距离,将所述词库中与所述标签词向量的距离满足条件的词作为与所述第一标签具有相关性的语义标签。
可选地,所述根据所述第一标签获取与所述第一标签具有相关性的混淆标签,包括:
根据用于获取所述深度学习模型的数据集构建混淆矩阵;
根据所述混淆矩阵获取与所述第一标签具有相关性的混淆标签。
可选地,所述用于获取所述深度学习模型的数据集包括训练集,所述训练集中的每个样本具有参考标签,所述根据用于获取所述深度学习模型的数据集构建混淆矩阵,包括:
将所述第一标签与所述训练集中的参考标签进行统计,得到混淆矩阵,所述混淆矩阵中每个元素的值为所述第一标签与对应的参考标签之间的混淆值。
可选地,所述根据所述混淆矩阵获取与所述第一标签具有相关性的混淆标签,包括:
根据所述混淆矩阵中所述第一标签与各个参考标签之间的混淆值,将混淆值满足混淆阈值的参考标签作为与所述第一标签具有相关性的混淆标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910122128.8/2.html,转载请声明来源钻瓜专利网。