[发明专利]一种关注度的计算方法及系统有效
申请号: | 202010164470.7 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111008525B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 黄粲然;于潇潇;郭琪琪 | 申请(专利权)人: | 北京搜狐新媒体信息技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关注 计算方法 系统 | ||
本发明提供了一种关注度的计算方法及系统,该方法为:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量;在预设的关键词库中获取待分析关键词在每一篇文章中的权重;获取每一篇文章对应的作者的影响度;利用待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对待分析关键词的关注度。本方案中,利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度。通过利用待分析关键词出现的词频、待分析关键词在不同文章中的权重和文章作者的影响度,提高计算用户对待分析关键词的关注度的准确度。
技术领域
本发明涉及数据处理技术领域,具体涉及一种关注度的计算方法及系统。
背景技术
随着互联网的发展,用户在阅读新闻和期刊等文章时会产生大量的阅读数据,通过分析大量的阅读数据可以得到用户对指定行业的特定内容的关注度。
目前分析阅读数据的方式为:提取用户所阅读的文章中的关键词,根据各个关键词出现的频率确定用户对指定行业的特定内容的关注度。但是某一行业的关键词可能出现在不同领域的文章中,该关键词在不同领域中的影响有所不同,因此目前分析阅读数据的方式无法准确计算用户对指定行业的特定内容的关注度。
发明内容
有鉴于此,本发明实施例提供一种关注度的计算方法及系统,以解决目前分析阅读数据的方式无法准确计算用户对指定行业的特定内容的关注度的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种关注度的计算方法,所述方法包括:
获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;
在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;
获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;
利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。
优选的,构建所述关键词库的过程包括:
获取每一行业对应的预设的关键词词典;
针对每一所述行业,利用所述行业对应的关键词词典,对所述行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和所述关键词的权重;
将权重大于阈值的所述关键词存储至关键词库中。
优选的,计算每一篇文章对应的作者的影响度的过程包括:
获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比;
针对每一文章类型,利用其他作者发表的所述文章类型的文章的数据信息,确定所述文章类型对应的发文中位数、阅读量中位数和分享比中位数;
利用每一文章类型对应的所述发文数量、所述平均文章阅读量、所述平均文章分享比、所述发文中位数、所述阅读量中位数和所述分享比中位数,计算所述作者的影响度。
本发明实施例第二方面公开一种关注度的计算系统,所述系统包括:
第一获取单元,用于获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;
第二获取单元,用于在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010164470.7/2.html,转载请声明来源钻瓜专利网。