[发明专利]标签匹配方法、装置、服务器及存储介质在审

申请号：	201811446459.9	申请日：	2018-11-29
公开（公告）号：	CN109582675A	公开（公告）日：	2019-04-05
发明（设计）人：	王树强	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G06F16/22	分类号：	G06F16/22;G06F16/332
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	唐述灿
地址：	100084 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标签匹配匹配存储介质树形数据服务器标签数据处理技术集中存储正确率自动化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开是关于一种标签匹配方法、装置、服务器及存储介质，属于数据处理技术领域。本公开的实施例提供的技术方案通过将待匹配的至少一个第二标签与树形数据集中存储的至少一个第一标签进行匹配，通过树形数据集的形式，来进行标签匹配的过程，能够提高标签匹配的自动化程度，大大减少了人工进行标签匹配的成本，也能够避免由于人工匹配而造成的匹配错误，提高了标签匹配的正确率。

技术领域

本公开涉及数据处理技术领域，尤其涉及一种标签匹配方法、装置、服务器及存储介质。

背景技术

在人工智能领域，数据标注是一项基础工作，例如，对数据进行分类标注、对数据进行标框标注以及对数据进行区域标注等，该项工作通常由外包人员进行。其中，在对数据进行分类标注的过程中，为了便于外包人员准确地对每个数据标注与其对应的标签，在对数据进行分类标注之前，需要先将每个标签与相应的描述信息进行匹配。

相关技术中，常用的标签匹配方法为：由相关人员创建说明描述集，该说明描述集中存储了大量的标签样本，以及与每个标签样本相关联的描述信息，该描述信息可以为相应的标签样本对应的定义及示例性说明等。进而，相关人员可以对该说明描述集中大量的标签样本进行整理归纳，将该大量的标签样本划分为至少一个一级标签及其分别对应的至少一个二级标签。基于上述说明描述集，相关人员可以将待匹配描述信息的标签与上述说明描述集中的标签样本及其描述信息进行匹配，得到与每个待匹配描述信息的标签相符的描述信息。

基于上述标签匹配方法，需要借助大量的人力，将待匹配的标签与说明描述集中相应的描述信息进行匹配，该过程耗时耗力，且，当待匹配的标签很多时，很容易造成匹配错误，进而导致后续的数据标注等发生错误。

发明内容

为克服相关技术中存在的标签匹配耗时耗力且易出错的问题，本公开提供一种标签匹配方法、装置、服务器及存储介质。

根据本公开实施例的第一方面，提供一种标签匹配方法，所述方法应用在服务器上，包括：

获取树形数据集，所述树形数据集存储有至少一个第一标签，每个第一标签具有相关联的描述信息；

基于待匹配的至少一个第二标签，与所述树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签，每个第二标签与对应的目标标签之间的字符相似程度符合预设条件；

将所述每个第二标签与所述每个第二标签对应的目标标签相关联的目标描述信息进行关联。

在一种可能的设计中，所述基于待匹配的至少一个第二标签，与所述树形数据集中的至少一个第一标签进行匹配，得到每个第二标签的目标标签包括：

对每个第二标签进行分词，得到所述每个第二标签的至少一个第二字符串；

基于每个第二字符串中的各个第二字符，与所述树形数据集中与所述各个第二字符对应的节点所存储的第一字符进行匹配，输出匹配到的第一字符对应的第一标签；

基于所述匹配到的第一字符对应的第一标签，获取所述每个第二标签的目标标签。

在一种可能的设计中，所述基于每个第二字符串中的各个第二字符，与所述树形数据集中与所述各个第二字符对应的节点所存储的第一字符进行匹配包括：