[发明专利]一种新闻热度的计算方法有效
申请号: | 201911398849.8 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111143655B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 龚才春;姜勇越 | 申请(专利权)人: | 创新奇智(青岛)科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35 |
代理公司: | 深圳珠峰知识产权代理有限公司 44899 | 代理人: | 黄伟 |
地址: | 266200 山东省青岛市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 热度 计算方法 | ||
1.一种新闻热度的计算方法,其特征在于,具体包括以下步骤:
步骤S1,采用爬虫机制对具有预设权威度的各新闻站点进行数据爬取,爬取得到各所述新闻站点的对应于所述预设权威度的若干新闻数据;
步骤S2,根据预先生成的新闻标签分类模型对各所述新闻数据进行新闻标签分类,得到具有对应新闻标签的各所述新闻数据;
步骤S3,判断预先生成的新闻事件库中是否存在具有对应聚类类别的若干新闻事件子集合:
若否,则转向步骤S4;
若是,则转向步骤S5;
步骤S4,将具有所述新闻标签的各所述新闻数据进行整体聚类,得到具有所述聚类类别的若干所述新闻事件子集合并存储在所述新闻事件库中,随后转向步骤S6;
步骤S5,将具有所述新闻标签的各所述新闻数据进行增量聚类,得到各所述新闻数据的所述聚类类别,并将所述新闻数据加入对应于所述聚类类别的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;
步骤S6,根据所述新闻事件库,统计得到每个所述新闻事件子集合中包含的各所述新闻数据的新闻数量以及新闻报道时间;
步骤S7,对所述新闻事件库中每个所述新闻事件子集合包含的各所述新闻数据进行排序,并根据排序结果对每个所述新闻数据进行权重赋值,得到各所述新闻数据对应的第一权重;
步骤S8,根据所述新闻事件库处理得到每个所述新闻事件子集合包含的各所述新闻数据被转发和转载量;
步骤S9,针对每篇所述新闻数据,根据预设第二权重对所述新闻数据对应的所述预设权威度、所述新闻标签、所述新闻数量、所述新闻报道时间、所述第一权重以及所述被转发和转载量进行加权求和,得到所述新闻数据的新闻热度值;
所述预设权威度的计算方法包括以下步骤:
步骤A1,获取预设时间段的各所述新闻站点的历史新闻数据;
步骤A2,统计所述历史新闻数据中描述同一新闻事件的各新闻子数量,并将各所述新闻子数量进行排序,将排序结果靠前的第一预设数量的所述新闻事件作为热点事件;
步骤A3,分别统计得到所述历史新闻数据包含的第一新闻总量,以及每个所述新闻站点报道的所述热点事件的第二新闻总量;
步骤A4,针对每个所述新闻站点,将所述第二新闻总量除以所述第一新闻总量,得到所述新闻站点的覆盖率;
步骤A5,统计各所述热点事件在各所述新闻站点的发布时间,将各所述发布时间进行排序,并将排序结果最靠前的所述发布时间作为标准时间;
步骤A6,针对每个所述新闻站点,根据所述标准时间和所述发布时间处理得到所述新闻站点的热点滞后时间;
步骤A7,针对每个所述新闻站点,根据预设第三权重对所述覆盖率和所述热点滞后时间进行加权求和,得到所述新闻站点的所述预设权威度。
2.根据权利要求1所述的新闻热度的计算方法,其特征在于,所述步骤A6中,采用以下公式计算得到所述热点滞后时间:
其中,
Tr用于表示所述热点滞后时间;
T用于表示所述发布时间;
Tn用于表示所述标准时间。
3.根据权利要求1所述的新闻热度的计算方法,其特征在于,所述步骤S1具体包括:
步骤S11,根据所述预设权威度的数值大小将各所述新闻站点进行排序,并根据排序结果将各所述新闻站点划分为第一等级新闻站点、第二等级新闻站点和第三等级新闻站点;
步骤S12,采用爬虫机制爬取所述第一等级新闻站点以及所述第二等级新闻站点的所述排序结果靠前的第二预设数量的所述新闻站点,得到各所述新闻站点的对应于所述预设权威度的若干新闻数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(青岛)科技有限公司,未经创新奇智(青岛)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911398849.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:资源推荐方法及装置
- 下一篇:时间推移地震观测方法及装置