[发明专利]标签匹配方法、装置、服务器及存储介质在审
申请号: | 201811446459.9 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109582675A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 王树强 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/332 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 唐述灿 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签匹配 匹配 存储介质 树形数据 服务器 标签 数据处理技术 集中存储 正确率 自动化 | ||
本公开是关于一种标签匹配方法、装置、服务器及存储介质,属于数据处理技术领域。本公开的实施例提供的技术方案通过将待匹配的至少一个第二标签与树形数据集中存储的至少一个第一标签进行匹配,通过树形数据集的形式,来进行标签匹配的过程,能够提高标签匹配的自动化程度,大大减少了人工进行标签匹配的成本,也能够避免由于人工匹配而造成的匹配错误,提高了标签匹配的正确率。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种标签匹配方法、装置、服务器及存储介质。
背景技术
在人工智能领域,数据标注是一项基础工作,例如,对数据进行分类标注、对数据进行标框标注以及对数据进行区域标注等,该项工作通常由外包人员进行。其中,在对数据进行分类标注的过程中,为了便于外包人员准确地对每个数据标注与其对应的标签,在对数据进行分类标注之前,需要先将每个标签与相应的描述信息进行匹配。
相关技术中,常用的标签匹配方法为:由相关人员创建说明描述集,该说明描述集中存储了大量的标签样本,以及与每个标签样本相关联的描述信息,该描述信息可以为相应的标签样本对应的定义及示例性说明等。进而,相关人员可以对该说明描述集中大量的标签样本进行整理归纳,将该大量的标签样本划分为至少一个一级标签及其分别对应的至少一个二级标签。基于上述说明描述集,相关人员可以将待匹配描述信息的标签与上述说明描述集中的标签样本及其描述信息进行匹配,得到与每个待匹配描述信息的标签相符的描述信息。
基于上述标签匹配方法,需要借助大量的人力,将待匹配的标签与说明描述集中相应的描述信息进行匹配,该过程耗时耗力,且,当待匹配的标签很多时,很容易造成匹配错误,进而导致后续的数据标注等发生错误。
发明内容
为克服相关技术中存在的标签匹配耗时耗力且易出错的问题,本公开提供一种标签匹配方法、装置、服务器及存储介质。
根据本公开实施例的第一方面,提供一种标签匹配方法,所述方法应用在服务器上,包括:
获取树形数据集,所述树形数据集存储有至少一个第一标签,每个第一标签具有相关联的描述信息;
基于待匹配的至少一个第二标签,与所述树形数据集中的至少一个第一标签进行匹配,得到每个第二标签的目标标签,每个第二标签与对应的目标标签之间的字符相似程度符合预设条件;
将所述每个第二标签与所述每个第二标签对应的目标标签相关联的目标描述信息进行关联。
在一种可能的设计中,所述基于待匹配的至少一个第二标签,与所述树形数据集中的至少一个第一标签进行匹配,得到每个第二标签的目标标签包括:
对每个第二标签进行分词,得到所述每个第二标签的至少一个第二字符串;
基于每个第二字符串中的各个第二字符,与所述树形数据集中与所述各个第二字符对应的节点所存储的第一字符进行匹配,输出匹配到的第一字符对应的第一标签;
基于所述匹配到的第一字符对应的第一标签,获取所述每个第二标签的目标标签。
在一种可能的设计中,所述基于每个第二字符串中的各个第二字符,与所述树形数据集中与所述各个第二字符对应的节点所存储的第一字符进行匹配包括:
对于所述每个第二字符串中的任一个第二字符,当确定所述第二字符匹配成功的第一节点时,将所述第二字符的下一个第二字符与所述第一节点的子节点进行匹配,所述第一节点所存储的字符与所述第二字符相同。
在一种可能的设计中,所述将所述第二字符的下一个第二字符与所述第一节点的子节点进行匹配包括:
获取下一个第二字符的哈希值;
基于所述哈希值和预设数值,确定所述下一个第二字符对应的节点范围下标;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811446459.9/2.html,转载请声明来源钻瓜专利网。