[发明专利]一种文本标签的提取方法和装置在审
申请号: | 202010001612.8 | 申请日: | 2020-01-02 |
公开(公告)号: | CN113065312A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 孙志强;李飞 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/157;G06F40/154;G06F40/216;G06F40/289;G06F16/31 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李阳;赵迪 |
地址: | 100176 北京市北京经济技术*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 标签 提取 方法 装置 | ||
本发明公开了一种文本标签的提取方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取目标文本,访问预先构建的标签字典树的节点,以按照节点之间的归属关系,从标签字典树中确定存在于目标文本的节点值,生成初始标签集;判断初始标签集的初始标签是否存在于设定基准标签集中,以分别计算不存在于基准标签集的至少一个初始标签与基准标签集的基准标签之间的相似度;根据相似度计算结果,从基准标签集中为至少一个初始标签分别选取对应的目标基准标签,使用目标基准标签对应替换至少一个初始标签,得到最终标签集。该方法实现了文本标签的自动化提取,提高标签提取的效率和准确率,降低了人力成本。
技术领域
本发明涉及计算机领域,尤其涉及一种文本标签的提取方法和装置。
背景技术
在电子商务平台,每天会有数万的活跃商家发布千万级数量的物品。商家为了让自己的物品获得更多、更精准的流量,会给物品贴标签,以吸引相应的用户,提高物品转化率。
现有技术中,一般通过以下几种方式为物品生成标签。方式一:后台运营人员根据对物品的理解,以及平台支持的标签体系,选择合适的标签;方式二:利用标签体系包含的标签值,对物品标题进行逐一匹配,生成所有可能的标签;方式三:基于人工智能算法训练模型,以通过模型自动生成标签。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
方式一处理效率低,准确率差,而且人力成本高;方式二仅能提取与标签体系完全匹配的标签,无法提取出分散型标签、相似性标签;方式三依赖大量的训练文本和标签训练集数据,而且需要人工标注,如果标签系统库数据有变化,则需要重新收集训练集数据,重新训练模型,无法满足业务需求。
发明内容
有鉴于此,本发明实施例提供一种文本标签的提取方法和装置,对目标文本按照标签字典树结构进行所有可能的路径搜索,得到初始标签集,后续基于初始标签与基准标签的相似度,确定最终标签集,实现了文本标签的自动化提取,提高标签提取的效率和准确率,降低了人力成本。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文本标签的提取方法。
本发明实施例的一种文本标签的提取方法,包括:获取目标文本,访问预先构建的标签字典树的节点,以按照所述节点之间的归属关系,从所述标签字典树中确定存在于所述目标文本的节点值,生成初始标签集;判断所述初始标签集的初始标签是否存在于设定基准标签集中,以分别计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度;根据相似度计算结果,从所述基准标签集中为所述至少一个初始标签分别选取对应的目标基准标签,使用所述目标基准标签对应替换所述至少一个初始标签,得到最终标签集。
可选地,按照节点之间的归属关系,从所述标签字典树中确定存在于所述目标文本的节点值,生成一个初始标签,包括:初始化空字符串,将归属于根节点的当前未被访问的叶子节点作为当前节点,访问所述当前节点,确定所述目标文本中存在所述当前节点的节点值;判断拼接:判断所述当前节点是否存在未被访问的叶子节点,如果所述当前节点存在未被访问的叶子节点,且所述目标文本中存在所述叶子节点的节点值,则拼接所述当前节点的节点值和所述叶子节点的节点值;更新:使用拼接后的节点值更新所述字符串,将所述叶子节点作为所述当前节点;重复执行所述判断拼接步骤和所述更新步骤,直至所述当前节点不存在所述叶子节点时,将更新后的所述字符串作为一个初始标签。
可选地,从所述基准标签集中为当前初始标签选取对应的目标基准标签,包括:确定所述当前初始标签与所述基准标签集的基准标签之间的最大相似度;比较所述最大相似度与设定阈值的大小,如果所述最大相似度大于等于所述阈值,则选取所述最大相似度对应的基准标签作为目标基准标签。
可选地,所述方法还包括:按照设定粒度拆分所述基准标签集的基准标签,以构建所述标签字典树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010001612.8/2.html,转载请声明来源钻瓜专利网。