[发明专利]一种给文章标注标签的方法和装置有效

专利信息
申请号: 201710172954.4 申请日: 2017-03-22
公开(公告)号: CN106980667B 公开(公告)日: 2019-04-12
发明(设计)人: 潘岸腾 申请(专利权)人: 广州优视网络科技有限公司
主分类号: G06F16/332 分类号: G06F16/332
代理公司: 北京律谱知识产权代理事务所(普通合伙) 11457 代理人: 罗建书
地址: 510627 广东省广州市天河区黄埔大*** 国省代码: 广东;44
权利要求书: 暂无信息 说明书: 暂无信息
摘要: 发明提供了一种给文章标注标签的方法和装置。所述方法包括:从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库;确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。
搜索关键词: 一种 文章 标注 标签 方法 装置
【主权项】:
1.一种给文章标注标签的方法,其包括:从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库,该关键词库包括但不限于:多个关键词,每个关键词在已有文章资源库里的每篇文章里出现的词频,其中提取出多个关键词的步骤包括:首先,使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语,建立分词词语库;接着,确定分词词语库里的每个分词词语的分辨率:其中:Si表示分词词语i的分辨率;θ为自定义的一个小数;Pl,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频,如果分词词语i没有出现在文章l中则Pl,i=0;|L|表示已有文章资源库里的所有文章的总数量;pct([Pl,i]l∈L,θ,1)表示将数组Pl里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和;pct([Pl,i]l∈L,0,θ)表示将数组Pl里的元素按数值大小做降序排列并且对排名在第1位到第θ分位的多个元素数值进行累加求和;L表示已有文章资源库里的所有文章的集合;最后,根据所述分辨率按预设方式选取一定数量的词语作为多个关键词;确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州优视网络科技有限公司,未经广州优视网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710172954.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top