[发明专利]基于复杂网络结构的新闻生命周期预测方法及系统在审
申请号: | 202111114817.8 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113918828A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 宣琦;蔡文力;林晨天;李子涵 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/33;G06F16/35;G06F40/216;G06K9/62;G06Q50/00 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 复杂 网络 结构 新闻 生命周期 预测 方法 系统 | ||
基于复杂网络结构的新闻生命周期的预测方法,包括:步骤S1,获取并清理数据集;S2,构建新闻和评论的复杂网络;S3,基于层次聚类算法生成新闻评论树的特征;S4,通过LDA主题提取新闻所述主题;S5,将新闻文本特征,与复杂网络的结构特征组合,通过随机森林模型,将新闻分成较长生命周期,中等生命周期,较短生命周期三类;然后将得到的特征重新租户,输入SVM回归模型,预测新闻的生命周期。本发明还包括实施基于复杂网络结构的新闻生命周期的预测方法的系统。本发明可以从数据集中提取新闻的文本特征和新闻评论网络的结构特征,提高预测的准确度,同时提升了模型整体的鲁棒性和普适性。
技术领域
本发明涉及数据挖掘、机器学习和图嵌入技术,具体涉及一种复杂网络结构特征计算,处理以及对新闻生命周期预测的方法和系统。
背景技术
近年来,随着互联网的普及和信息技术的快速发展,传统书籍和纸质媒体逐步被互联网产品取代。互联网作为用户交流信息的平台,在用户的工作生活中占据重要地位,用户可以通过互联网去获取各种资讯。如何去预测信息的生命周期就显得尤为重要。在现阶段,生命周期预测方法主要有经验判别法、数学模型法和联合法三大类。早期最常用的产品生命周期预测方法多侧重于定性经验判断,主要有类比法、增长率预测法和普及率分析及预测法。类比法,顾名思义,用已知信息推未知信息,根据以往类似产品生命周期变化规律来推测目标产品的生命周期。增长率法,则是采取分段判断的方式,以产品增长率的变化规律来预测目标产品生命周期。普及率分析及预测法利用样本数据计算所得的产品普及率来分析预测其所处的生命周期。但是这些传统的方法来预测生命周期,其结果存在一定的误差;同时由于新闻的多变性,这些方法不适合用来预测新闻的生命周期。
中国专利CN202110395553公开了一种停车场设备的生命周期预测方法及系统,该方法局限性较大;中国专利CN201910062267.6公开了结合复杂网络和机器学习的方法,将其应用在肿瘤驱动基因预测上;而在生命周期预测方面,很少有应用复杂网络的。
发明内容
本发明要克服现有技术的上述缺点,提出一种基于复杂网络结构的新闻生命周期的预测方法及系统。
本发明主要拓展应用面,优化机器学习方法,结合复杂网络,提出特征融合方法,提供一种基于复杂网络结构的新闻生命周期的预测方法及系统。
本发明结合传统的层次聚类、随机森林、SVM等机器学习方法,以及二分网络的图嵌入方法,通过优化层次聚类方法和随机森林方法,得到适合预测的特征向量,同时结合社交网络的网络结构特征,通过特征融合技术,形成全新的特征向量,通过优化的SVM模型,预测新闻的生命周期。
本发明实现上述发明目的所采用的技术方案如下:
基于复杂网络结构的新闻生命周期的预测方法,包括以下步骤:
S1:获取一种带有时间序列的新闻数据集并清洗该数据;
S2:通过新闻下的评论关系以及新闻自身的特征,将用户对新闻的评价和新闻自身作为节点,评论之间的联系作为连边,构建超图网络,计算网络的特征向量;
S3:基于层次聚类算法计算回推值;
S4:通过LDA主题提取算法生成新闻主题;
S5:计算新闻文本特征向量,通过图嵌入方法计算网络的结构特征向量,按一定比例组合,再通过随机森林模型,将新闻分成较长生命周期,中等生命周期,较短生命周期三类;然后将得到的特征输入SVM线性模型,预测新闻的生命周期时长。
优选的,所述步骤S1中:对获取的数据集进行清洗操作,将数据信息导入数据库中,筛选评论数量在一定范围内的新闻,删除缺少时间信息的新闻数据,将所有新闻的时间信息规则化;删除新闻文本信息中的符号,链接,图片等不规则信息;补全新闻数据中的残缺信息;该步骤有助于除去一些残差信息,方便后续的特征计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111114817.8/2.html,转载请声明来源钻瓜专利网。