[发明专利]基于复杂网络结构的新闻生命周期预测方法及系统在审

专利信息
申请号: 202111114817.8 申请日: 2021-09-23
公开(公告)号: CN113918828A 公开(公告)日: 2022-01-11
发明(设计)人: 宣琦;蔡文力;林晨天;李子涵 申请(专利权)人: 浙江工业大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06F16/33;G06F16/35;G06F40/216;G06K9/62;G06Q50/00
代理公司: 杭州天正专利事务所有限公司 33201 代理人: 王兵
地址: 310014 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 复杂 网络 结构 新闻 生命周期 预测 方法 系统
【权利要求书】:

1.基于复杂网络结构的新闻生命周期的预测方法,其特征在于:包括以下步骤:

S1:获取一种带有时间序列的新闻数据集并清洗该数据;

S2:通过新闻下的评论关系以及新闻自身的特征,将用户对新闻的评价和新闻自身作为节点,评论之间的联系作为连边,构建超图网络,计算网络的特征向量;

S3:基于层次聚类算法计算回推值;

S4:通过LDA主题提取算法生成新闻主题;

S5:计算新闻文本特征向量,通过图嵌入方法计算网络的结构特征向量,按一定比例组合,再通过随机森林模型,将新闻分成较长生命周期,中等生命周期,较短生命周期三类;然后将得到的特征输入SVM线性模型,预测新闻的生命周期时长。

2.如权利要求1所述的基于复杂网络结构的新闻生命周期预测方法,其特征在于:所述步骤S1包括:对获取的数据集进行清洗操作,将数据信息导入数据库中,筛选评论数量在一定范围内的新闻,删除缺少时间信息的新闻数据,将所有新闻的时间信息规则化;删除新闻文本信息中的符号,链接,图片等不规则信息;补全新闻数据中的残缺信息。

3.如权利要求1所述的基于复杂网络结构的新闻生命周期预方法,其特征在于:所述步骤S2包括:

首先根据用户跟新闻之间的联系,来构建新闻之间的关系网络,该网络中的每个节点表示新闻,然后将每个新闻下的评论作为另一种类型的节点,插入该网络,与相应的新闻节点形成复杂网络,其中新闻节点之间的连边表示用户的操作行为,评论节点之间的连边表示了评论的回复关系。

4.如权利要求1所述的基于复杂网络结构的新闻生命周期预方法,其特征在于:所述步骤S3包括:选取新闻前3个小时内的评论,根据发布时间,将评论正向排序,首先将每一条评论当作一个簇,计算任意两个簇之间的距离,合并这两个簇,直到最远的两个簇的距离超过阈值或者簇的个数到达上线,停止迭代,最后将簇的个数作为新闻的回推值;其中距离的计算公式为:

其中Ci,Cj表示两个不同的簇,p,q表示簇中的节点,表示一个簇内的平均距离。

5.如权利要求1所述的基于复杂网络结构的新闻生命周期预方法,其特征在于:所述步骤S4包括:

S4.1:根据获取的数据集,取一部分的数据作为训练集,将新闻标题进行分词操作,通过词语的共现信息,进行词频统计,得到单词共现频率的概率矩阵,同时得到训练好的LDA模型;

S4.2:将剩下的数据作为测试集,首先进行分词操作,输入训练好的LDA模型,选取最大的概率的主题,作为该新闻的主题;

S4.3:统计概率矩阵,计算每条新闻所包括的主题数量,只要概率大于一定的阈值,就当作该新闻属于该主题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111114817.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top