[发明专利]一种基于文本挖掘的热点新闻发现方法在审
申请号: | 202011381648.X | 申请日: | 2020-12-01 |
公开(公告)号: | CN112528018A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 张大朋;赵晓玲;孙哲南;张堃博;薛文芳 | 申请(专利权)人: | 天津中科智能识别产业技术研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300457 天津市滨海新区天津经济技*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 挖掘 热点新闻 发现 方法 | ||
本发明公开一种基于文本挖掘的热点新闻发现方法,包括步骤:将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF‑IDF的特征向量;基于所述TF‑IDF的特征向量,利用聚类算法预测新闻的所属类别;将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;利用TextRank算法,对新闻标题排序后输出热点新闻。本发明在聚类时增加了新闻标题权重,以提升其正确率;将新闻的标题、摘要、关键词一并用于排序,一方面增加新闻标题的权重,一方面能减少新闻标题的重复。
技术领域
本发明涉及新闻发现技术领域,特别是涉及一种基于文本挖掘的热点新闻发现方法。
背景技术
现有技术热点新闻发现方法比较多:利用LDA主题模型,提出一个多核心活体模型,能够识别同一话题下关注的核心,之后采用划分聚类和层次聚类结合的办法对新闻报道进行精确聚类。采用single-pass聚类思想和凝聚式层次聚类与K-Means聚类算法相结合发现热点新闻。改进关联规则算法,根据互信息来计算文本字符串的相似度,然后得出热点新闻关键词集合,再进行热度计算来研究新闻热点。利用聚类算法得到新闻的类别,然后利用TextRank排序,取前几个新闻即为热点新闻。
然而现有热点新闻发现中,没有考虑新闻的结构,导致区分度以及正确率上尚未达到满意的效果,且也存在重复标题的新闻热点发现问题。
发明内容
本发明的目的是针对现有技术中的缺陷,而提供一种基于文本挖掘的热点新闻发现方法,本发明方法增加了区分度,提升了正确率,解决了新闻标题的重复的问题。
为实现本发明的目的所采用的技术方案是:
一种基于文本挖掘的热点新闻发现方法,包括步骤:
将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF-IDF的特征向量;
基于所述TF-IDF的特征向量,利用聚类算法预测新闻的所属类别;
将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;
利用TextRank算法对句子处理,对新闻标题排序后输出热点新闻。
优选的,所述预处理包括去重、清洗的处理步骤。
优选的,利用训练TF-IDF模型获取新闻的TF-IDF的特征向量。
优选的,利用训练k-means模型预测新闻的所属类别。
优选的,TextRank算法顺序的步骤是,计算所述句子间相似度,根据所述相似度计算句子权重,根据所述权重对新闻标题进行排序。
本发明在热点新闻挖掘中,在聚类时,增加了新闻标题的权重,以提升其正确率;在排序时,将新闻的标题、摘要、关键词一并用于排序,一方面增加新闻标题的权重,一方面能减少新闻标题的重复。
附图说明
图1是本发明的基于文本挖掘的热点新闻发现方法的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明基于文本挖掘的热点新闻发现方法,包括以下步骤:
将预处理后的新闻的标题的权重扩大,在分词及去停用词处理后,获取新闻的TF-IDF的特征向量;
基于所述TF-IDF的特征向量,利用聚类算法预测新闻的所属类别;
将新闻的标题及摘要合并成一句子,然后对句子进行分词、去停用词处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津中科智能识别产业技术研究院有限公司,未经天津中科智能识别产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011381648.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示面板和显示装置
- 下一篇:安全可靠的远程销毁装置及其销毁方法