[发明专利]文本标签提取方法、装置、设备和存储介质在审

专利信息
申请号: 201910986050.4 申请日: 2019-10-17
公开(公告)号: CN112699232A 公开(公告)日: 2021-04-23
发明(设计)人: 窦方正 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06F40/216;G06Q30/06
代理公司: 北京品源专利代理有限公司 11332 代理人: 孟金喆
地址: 100086 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 标签 提取 方法 装置 设备 存储 介质
【说明书】:

发明实施例公开了一种文本标签提取方法、装置、设备和存储介质。该方法包括:获取待提取标签的各文本,并对每个所述文本进行向量化,获得相应文本对应的文本向量;对各所述文本向量进行聚类,获得至少一个文本聚类结果;对各所述文本聚类结果进行关键词提取,获得各所述文本聚类结果对应的各标签候选词;根据每个所述文本聚类结果对应的各所述标签候选词,确定各所述文本的文本标签。通过上述技术方案,实现了文本标签的自动提取,提高了文本标签提取的准确性、全面性和标签提取方法的可扩展性。

技术领域

本发明实施例涉及计算机技术,尤其涉及一种文本标签提取方法、装置、设备和存储介质。

背景技术

在信息搜索和信息推荐等应用场景中,通常需要进行数据的挖掘,其中一项便为文本标签的提取。以电商平台为例,其文本标签提取的对象通常为商品相关信息,例如商品详情介绍(简称物品介绍详情图)、商品规格参数及评论等。其中,物品介绍详情图中包含更加详细及全面的商品描述信息,例如涉及商品使用场合、适用人群及“占地小”、“吸力大”等营销标签;商品规格参数以表格等结构化形式存储,其包含商品的长宽高等规格属性和商品的颜色、内存、通信模式等商品扩展属性。

目前,针对电商平台的文本标签提取方法大致有:第一,从人工填报系统获取文本标签。例如在商家上架商品时,要求其在人工填报系统中填写商品相关的属性信息。第二,从商品规格参数等结构化的商品相关信息中自动提取文本标签,例如自动识别表格等结构化的文本载体,之后从中提取文本标签。第三,从物品介绍详情图和评论等非结构化的商品相关信息中自动提取文本标签,例如人工标注需要提取的文本标签,之后进行相关文本标签的自动提取。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:(1)人工填报的信息存在错误、缺失及表述不精确等问题,且人工填报的标签规范性较强,个性化不足;(2)虽然从结构化信息中自动提取标签的方式能够一定程度上纠正人工错误和提高人工填报规定的属性的填报效率,但是其仍然存在个性化不足的问题;(3)虽然从物品介绍详情图等非结构化信息中自动提取标签的方法能够一定程度上解决文本标签个性化不足的问题,但是其需要人工数据标注,使得文本标签提取的效率低、扩展性差。

发明内容

本发明实施例提供一种文本标签提取方法、装置、设备和存储介质,以实现文本标签的自动提取,提高文本标签提取的准确性、全面性和可扩展性。

第一方面,本发明实施例提供了一种文本标签提取方法,包括:

获取待提取标签的各文本,并对每个所述文本进行向量化,获得相应文本对应的文本向量;

对各所述文本向量进行聚类,获得至少一个文本聚类结果;

对各所述文本聚类结果进行关键词提取,获得各所述文本聚类结果对应的各标签候选词;

根据每个所述文本聚类结果对应的各所述标签候选词,确定各所述文本的文本标签。

第二方面,本发明实施例还提供了一种文本标签提取装置,该装置包括:

文本向量获取模块,用于获取待提取标签的各文本,并对每个所述文本进行向量化,获得相应文本对应的文本向量;

文本聚类结果获得模块,用于对各所述文本向量进行聚类,获得至少一个文本聚类结果;

标签候选词获得模块,用于对各所述文本聚类结果进行关键词提取,获得各所述文本聚类结果对应的各标签候选词;

文本标签确定模块,用于根据每个所述文本聚类结果对应的各所述标签候选词,确定各所述文本的文本标签。

第三方面,本发明实施例还提供了一种设备,该设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910986050.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top