[发明专利]数据处理方法和装置、电子设备和计算机可读存储介质有效
申请号: | 201810607823.9 | 申请日: | 2018-06-13 |
公开(公告)号: | CN108984618B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 吴凌云;罗平;彭章琳;任家敏;张瑞茂;王新江 | 申请(专利权)人: | 深圳市商汤科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本公开提供了一种数据处理方法和装置、电子设备和计算机可读存储介质,其中所述方法包括:按照层级扩展的方式,获取基于种子标签的多层级标签结构,以及获取所述多层级标签结构中各标签对应的数据,其中所述多层级标签结构中的第i+1层的标签是由第一层至第i层对应的标签形成的组合标签的扩展标签,其中i为大于或者等于1且小于N的正整数,N为所述多层级标签结构的层数,且N大于1;基于所述多层级标签结构,获取至少一个数据集合,所述数据集合包括至少一个数据以及该数据对应的标签。本公开实施例能够利用少量的种子标签获取海量标签及对应的数据。
技术领域
本公开涉及计算机技术领域,特别涉及一种数据处理方法和装置、电子设备和计算机可读存储介质。
背景技术
近年来,深度神经网络在多个智能领域(例如计算机视觉、自然语言处理、游戏博弈等领域)取得了前所未有的技术突破。在视觉理解领域,随着互联网通讯技术的迅猛发展,视觉数据(以图像数据、视频数据为主)的采集成本不断降低,获取并利用海量图像数据(亿级)持续稳定地提升分类神经网络的判别能力与泛化能力成为了可能。然而,海量图像数据分类任务的建模是很复杂的,大规模的数据构建和标签分类都会有很多挑战。
现有技术中,大规模数据积累过程通常可以仅使用公开数据集的种子标签作为关键词或使用WordNet(语义网络)语义拓展出的同义词标签作为关键词,再从互联网搜索引擎抓取网络数据,这两种方式都会因其关键词固定使积累数据库的语义概念、样本量及训练模型的迁移性受到限制。其次,学习图像上层信息的深度神经网络建模需要依赖大量高质量、结构化、标签化的数据,但因人工标注成本巨大,在无任何手动数据清洗和人工标注的情况下仍然保证海量数据的结构化和多样化是海量数据构建的难点。
发明内容
有鉴于此,本公开提出了一种可以方便的基于少量的种子标签获取海量标签及数据的数据处理方法和装置、电子设备和计算机可读存储介质。
根据本公开的第一方面,提供了一种数据处理方法,其包括:
按照层级扩展的方式,获取基于种子标签的多层级标签结构,以及获取所述多层级标签结构中各标签对应的数据,其中所述多层级标签结构中的第i+1层的标签是由第一层至第i层对应的标签形成的组合标签的扩展标签,其中i为大于或者等于1且小于N的正整数,N为所述多层级标签结构的层数,且N大于1;
基于所述多层级标签结构,获取至少一个数据集合,所述数据集合包括至少一个数据以及该数据对应的标签。
在本公开实施例中,所述按照层级扩展的方式,获取基于种子标签的多层级标签结构包括:
将所述种子标签作为与其对应的所述多层级标签结构的第一层标签;
将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;
获取所述组合标签的扩展标签,所述扩展标签为所述多层级标签结构的第i+1层与所述组合标签对应的标签。
在本公开实施例中,所述获取所述组合标签的扩展标签包括:
通过查询第一数据库,获取所述组合标签的扩展标签,其中所述第一数据库中包括各标签及其扩展标签;或者
通过向网络搜索引擎请求获取组合标签的扩展标签。
在本公开实施例中,所述获取所述多层级标签结构中各标签对应的数据包括:
获得与所述种子标签对应的第一数据;以及
将第i层的第一标签以及前i-1层与所述第一标签对应的第二标签组合形成组合标签;
获得与所述组合标签对应的第二数据。
在本公开实施例中,所述获得与所述种子标签对应的第一数据包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市商汤科技有限公司,未经深圳市商汤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810607823.9/2.html,转载请声明来源钻瓜专利网。