[发明专利]一种文本标签的提取方法、装置及服务器有效

申请号：	201710159896.1	申请日：	2017-03-17
公开（公告）号：	CN108628875B	公开（公告）日：	2022-08-30
发明（设计）人：	温旭;赵铭;曹凯;闫清岭;张智敏;颜景善	申请（专利权）人：	腾讯科技（北京）有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/35
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	蒋雅洁;姚开丽
地址：	100080 北京市海淀区海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本标签提取方法装置服务器
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本标签的提取方法，包括：获取M个文本和N个标签词，所述M个文本包括S个文本类别，M、N、S均为正整数；分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重，i为小于或者等于N的正整数，k为小于或者等于S的正整数；将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数；至少根据所述相关性参数，提取所述第k个文本类别下的文本所对应的标签词。本发明实施例同时还提供一种文本标签的提取装置及服务器。

技术领域

本发明涉及互联网技术，尤其涉及一种文本标签的提取方法、装置及服务器。

背景技术

文章的标签(tag)对文章的内容进行一定程度的描述，类似于文章的关键词，通常反映了用户对该篇文章可能关注的兴趣点。同一篇文章的标签可以有多个，但通常只能属于一个文本类别。文章的标签和分类有一定的联系，每个文本类别包含了多个标签，而每个标签通常也会出现在多个文章的分类中。文章的标签提取，通常会有一个候选的标签列表，在提取过程中，会考虑每一个标签在文章中出现的位置、次数，还有每个标签和文章所属分类的相关性等。

目前，标签和文章所属分类的相关性，通常是通过人工标注的方式进行的，但是，随着标签和文章数据规模的增大，人工标注势必会影响文本标签提取的准确性。

发明内容

有鉴于此，本发明实施例期望提供一种文本标签的提取方法、装置及服务器，以保证文本标签提取的准确性。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供一种文本标签的提取方法，包括：获取M个文本和N个标签词，所述M个文本包括S个文本类别，M、N、S均为正整数；分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重，i为小于或者等于 N的正整数，k为小于或者等于S的正整数；将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k个文本类别的相关性参数；至少根据所述相关性参数，提取所述第k个文本类别下的文本所对应的标签词。

第二方面，本发明实施例提供一种文本标签的提取装置，包括：获取单元，用于获取M个文本和N个标签词，所述M个文本包括S个文本类别，M、N、 S均为正整数；计算单元，用于分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重，i为小于或者等于N的正整数，k为小于或者等于S的正整数；将所述文本比重与所述词比重二者的平均数确定为所述第i个标签词与所述第k 个文本类别的相关性参数；提取单元，用于至少根据所述相关性参数，提取所述第k个文本类别下的文本所对应的标签词。

第三方面，本发明实施例提供一种服务器，包括：存储器，用于存储M个文本和N个标签词，所述M个文本包括S个文本类别，M、N、S均为正整数；处理器，用于获取所述M个文本和所述N个标签词；分别计算所述N个标签词中的第i个标签词在所述S个文本类别中的第k个文本类别下的文本比重和在所述第k个文本类别下的词比重，i为小于或者等于N的正整数，k为小于或者等于S的正整数；将所述文本比重与所述词比重二者的平均数确定为所述第 i个标签词与所述第k个文本类别的相关性参数；至少根据所述相关性参数，提取所述第k个文本类别下的文本所对应的标签词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（北京）有限公司，未经腾讯科技（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710159896.1/2.html，转载请声明来源钻瓜专利网。

上一篇：迁移数据的方法、装置、电子设备和可读存储介质
下一篇：一种基于聚类分析的自动化指纹特征提取方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本标签的提取方法、装置及服务器有效

专利文献下载