[发明专利]一种基于主题模型的新闻热点检测方法有效
申请号: | 201611145855.9 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106599181B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 庄郭冕;黄乔;彭志宇;付晗;王忆诗 | 申请(专利权)人: | 浙江网新恒天软件有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 新闻 热点 检测 方法 | ||
本发明公开了一种基于主题模型的新闻热点检测方法,通过网络爬虫定向爬取新闻流,首先对文章进行分词,去除停用词及无意义字符串等预处理,继而对预处理后的文章进行特征提取,构建文本模型,然后通过文本聚类算法将相似度程度高的文本加入到最相似的类别中,得到主题库,接着对新老主题进行相似度计算,对于相似度高的新老主题进行合并,最后进行主题热度计算,通过排序选出最热的主题。本发明创新性地将LDA算法应用在热点主题发现中,并提出了爆发性的概念,能够及时有效地发现最新热点新闻,同时提出了主题热度衰减概念,能够实时记录跟踪主题热度,真实地反映了新闻热点的发展变化,对于热点新闻的追踪展示具有重要意义。
技术领域
本发明提供了一种基于主题模型的新闻热点检测方法,涉及网络爬虫,聚类分析,文本相似度计算等核心技术与算法,及时有效的检测新闻热点,追踪热点新闻演变。
背景技术
随着互联网技术的发展,海量信息时代已经来临,各类信息充斥于互联网,但只有少数新闻能引起轰动,即所谓的头条新闻,热点新闻,及时的新闻热点发现能够帮助人们实时关注社会状态。
另一方面,一个新闻热点的爆发不是一瞬即逝的,往往伴随着一个跌宕起伏的发展过程,并引发其他潜在问题发生,所以追踪新闻热点的发展过程对于研究社会问题具有重要意义。
互联网的发展,大数据的兴起,互联网充斥着大量信息,在这些低质量的信息中发现热点新闻变得极其重要。
发明内容
本发明的目的在于针对如今互联网信息的繁杂,提供一种基于网络爬虫、聚类分析和主题模型的新闻热点检测方法。
本发明的目的是通过以下技术方案来实现的:一种基于主题模型的新闻热点检测方法,通过网络爬虫定向爬取新闻流,首先对文章进行分词,去除停用词及无意义字符串等预处理,继而对预处理后的文章进行特征提取,构建文本模型,然后通过文本聚类算法将将相似度程度高的文本加入到最相似的类别中,得到话题库,接着对新老话题进行相似度计算,对于相似度高的新老话题进行合并,最后进行话题热度计算,通过排序选出最热的话题。具体包括以下步骤:
(1)采用网络爬虫的方式定向爬取新闻流,每到来N篇新文章进行一次批处理,对爬取数据进行数据清洗、文章分词得到预处理后的文章;
(2)构建向量空间模型:经过预处理操作,原始文档可以看做是由一堆词语构成的,如果把文档看做是一个向量的话,那么每个词语就是一维特征,通过将文档转化为向量,文本数据就变为可以被计算机处理的结构化数据,两个文档之间的相似性问题就转化为了两个向量之间的相似性问题;在计算文档向量每一维的权重时,采用改进的B-TFIDF算法,算法公式如下:
公式(1)中w代表单词,A表示新文章中包含单词w的文章数,B表示新文章中不包含单词w的文章数,C表示历史文章中包含单词w的文章数,D表示历史文章中不包含单词w的文章数,公式(2)中di表示第i篇新文章,N表示新文章总数,tf(d,w)表示单词w在文章d中的词频,df(w)表示包含单词w的文章数;B-TFIDF算法将词语的爆发性考虑在内,爆发性即一个词语在短期内突然大量出现;通过以上算法计算构成文档的每个词语的权重,进而生成文章的向量空间模型Di=(weight(di,w1),weight(di,w2),weight(di,w3)…..weight(di,wn)),其中n为总词数;
(3)文章聚类:经过步骤2,文本被表示为向量的形式,对文本向量进行聚类;采用LDA主题模型聚类算法,具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江网新恒天软件有限公司,未经浙江网新恒天软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611145855.9/2.html,转载请声明来源钻瓜专利网。