[发明专利]一种给文章标注标签的方法和装置有效
申请号: | 201710172954.4 | 申请日: | 2017-03-22 |
公开(公告)号: | CN106980667B | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 潘岸腾 | 申请(专利权)人: | 广州优视网络科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京律谱知识产权代理事务所(普通合伙) 11457 | 代理人: | 罗建书 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明提供了一种给文章标注标签的方法和装置。所述方法包括:从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库;确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。 | ||
搜索关键词: | 一种 文章 标注 标签 方法 装置 | ||
【主权项】:
1.一种给文章标注标签的方法,其包括:从已有文章资源库里的所有文章里提取出多个关键词,建立关键词库,该关键词库包括但不限于:多个关键词,每个关键词在已有文章资源库里的每篇文章里出现的词频,其中提取出多个关键词的步骤包括:首先,使用分词技术从已有文章资源库里的所有文章里提取出多个分词词语,建立分词词语库;接着,确定分词词语库里的每个分词词语的分辨率:其中:Si表示分词词语i的分辨率;θ为自定义的一个小数;Pl,i表示分词词语库里的分词词语i在已有文章资源库里的文章l中的词频,如果分词词语i没有出现在文章l中则Pl,i=0;|L|表示已有文章资源库里的所有文章的总数量;pct([Pl,i]l∈L,θ,1)表示将数组Pl里的元素按数值大小做降序排列并且对排名在θ分位到最后1位的多个元素数值进行累加求和;pct([Pl,i]l∈L,0,θ)表示将数组Pl里的元素按数值大小做降序排列并且对排名在第1位到第θ分位的多个元素数值进行累加求和;L表示已有文章资源库里的所有文章的集合;最后,根据所述分辨率按预设方式选取一定数量的词语作为多个关键词;确定所述关键词库里的每个关键词对预先已建立的标签库里的每个标签的第一权重;基于获得的所述第一权重和所述每个关键词的词频确定所述标签库里的每个标签对已有文章资源库里的每篇文章的第二权重;基于所获得的第二权重按预定方式选取一定数量的标签给相应的文章标注上。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州优视网络科技有限公司,未经广州优视网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710172954.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种组合椅
- 下一篇:一种网络空间测绘要素的形式化建模方法