[发明专利]基于复杂网络结构的新闻生命周期预测方法及系统在审
申请号: | 202111114817.8 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113918828A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 宣琦;蔡文力;林晨天;李子涵 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33;G06F16/35;G06F40/216;G06K9/62;G06Q50/00 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 复杂 网络 结构 新闻 生命周期 预测 方法 系统 | ||
1.基于复杂网络结构的新闻生命周期的预测方法,其特征在于:包括以下步骤:
S1:获取一种带有时间序列的新闻数据集并清洗该数据;
S2:通过新闻下的评论关系以及新闻自身的特征,将用户对新闻的评价和新闻自身作为节点,评论之间的联系作为连边,构建超图网络,计算网络的特征向量;
S3:基于层次聚类算法计算回推值;
S4:通过LDA主题提取算法生成新闻主题;
S5:计算新闻文本特征向量,通过图嵌入方法计算网络的结构特征向量,按一定比例组合,再通过随机森林模型,将新闻分成较长生命周期,中等生命周期,较短生命周期三类;然后将得到的特征输入SVM线性模型,预测新闻的生命周期时长。
2.如权利要求1所述的基于复杂网络结构的新闻生命周期预测方法,其特征在于:所述步骤S1包括:对获取的数据集进行清洗操作,将数据信息导入数据库中,筛选评论数量在一定范围内的新闻,删除缺少时间信息的新闻数据,将所有新闻的时间信息规则化;删除新闻文本信息中的符号,链接,图片等不规则信息;补全新闻数据中的残缺信息。
3.如权利要求1所述的基于复杂网络结构的新闻生命周期预方法,其特征在于:所述步骤S2包括:
首先根据用户跟新闻之间的联系,来构建新闻之间的关系网络,该网络中的每个节点表示新闻,然后将每个新闻下的评论作为另一种类型的节点,插入该网络,与相应的新闻节点形成复杂网络,其中新闻节点之间的连边表示用户的操作行为,评论节点之间的连边表示了评论的回复关系。
4.如权利要求1所述的基于复杂网络结构的新闻生命周期预方法,其特征在于:所述步骤S3包括:选取新闻前3个小时内的评论,根据发布时间,将评论正向排序,首先将每一条评论当作一个簇,计算任意两个簇之间的距离,合并这两个簇,直到最远的两个簇的距离超过阈值或者簇的个数到达上线,停止迭代,最后将簇的个数作为新闻的回推值;其中距离的计算公式为:
其中Ci,Cj表示两个不同的簇,p,q表示簇中的节点,表示一个簇内的平均距离。
5.如权利要求1所述的基于复杂网络结构的新闻生命周期预方法,其特征在于:所述步骤S4包括:
S4.1:根据获取的数据集,取一部分的数据作为训练集,将新闻标题进行分词操作,通过词语的共现信息,进行词频统计,得到单词共现频率的概率矩阵,同时得到训练好的LDA模型;
S4.2:将剩下的数据作为测试集,首先进行分词操作,输入训练好的LDA模型,选取最大的概率的主题,作为该新闻的主题;
S4.3:统计概率矩阵,计算每条新闻所包括的主题数量,只要概率大于一定的阈值,就当作该新闻属于该主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111114817.8/1.html,转载请声明来源钻瓜专利网。