[发明专利]一种基于主题模型的新闻热点检测方法有效
申请号: | 201611145855.9 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106599181B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 庄郭冕;黄乔;彭志宇;付晗;王忆诗 | 申请(专利权)人: | 浙江网新恒天软件有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 新闻 热点 检测 方法 | ||
1.一种基于主题模型的新闻热点检测方法,其特征在于,包括以下步骤:
(1)采用网络爬虫的方式定向爬取新闻流,每到来N篇新文章进行一次批处理,对爬取数据进行数据清洗、文章分词得到预处理后的文章;
(2)构建向量空间模型:经过预处理操作,原始文档可以看做是由一堆词语构成的,如果把文档看做是一个向量的话,那么每个词语就是一维特征,通过将文档转化为向量,文本数据就变为可以被计算机处理的结构化数据,两个文档之间的相似性问题就转化为了两个向量之间的相似性问题;在计算文档向量每一维的权重时,采用改进的B-TFIDF算法,算法公式如下:
公式(1)中w代表单词,A表示新文章中包含单词w的文章数,B表示新文章中不包含单词w的文章数,C表示历史文章中包含单词w的文章数,D表示历史文章中不包含单词w的文章数,公式(2)中di表示第i篇新文章,N表示新文章总数,tf(d,w)表示单词w在文章d中的词频,df(w)表示包含单词w的文章数;B-TFIDF算法将词语的爆发性考虑在内,爆发性即一个词语在短期内突然大量出现;通过以上算法计算构成文档的每个词语的权重,进而生成文章的向量空间模型Di=(weight(di,w1),weight(di,w2),weight(di,w3)…..weight(di,wn)),其中n为总词数;
(3)文章聚类:经过步骤2,文本被表示为向量的形式,对文本向量进行聚类;采用LDA主题模型聚类算法,具体为:
LDA聚类过程:LDA是一个三层贝叶斯概率模型,包含词、主题和文档三层,将一篇文章的产生看做是这样一个过程:以一定概率选定某个主题,并在这个主题中以一定概率选定某个词,文档到主题服从多项式分布,主题到词服从多项式分布,通过LDA聚类得到“主题-词语”概率矩阵phi以及“文档-主题”概率矩阵theta,根据“文档-主题”概率矩阵theta得到m个主题和m个主题对应N篇文章的概率,theta的每一行i代表一篇文章,每一列j代表一个主题,对应矩阵值thetaij是文章i属于主题j的概率;设置筛选阈值为thresholdT,若thetaij>thresholdT则认为文章i属于主题j,由此选出每个主题对应的文章;
LDA聚类个数m的确定:分别设置聚类个数为N/10-N/5重复执行LDA聚类算法,然后计算每一次执行结果的主题间相似度,选择主题间相似度最低的执行结果对应的主题个数;主题间相似度的计算根据LDA聚类得到的“主题-词语”概率矩阵phi,phi的每一行j代表一个主题Tj,每一列k代表一个单词wk,phijk代表主题Tj包含单词wk的概率;Phi的一行可以看做主题Tj的向量形式
Tj=(w1,w2,w3,…wk…wn),n为总词数;计算主题两两之间的相似度,求相似度平均值,取最小值作为最终的主题间相似度;相似度的计算采用余弦相似度的计算方法,计算公式如下:
公式(3)中的Ti和Tj代表两个主题,ωk(Ti)代表主题Ti在维度k上的值,n表示总词数;
(4)主题关键词提取:从主题下所有文章的题目中提取关键词,先对文章题目进行分词,过滤掉停止词,无意义词和标点符号,剩下的词作为主题关键词;
(5)话题合并:由步骤3得到m个主题和其对应的文章,接下来将m个新主题与旧主题进行合并,计算主题间相似度f1,若f1>0.5则认为两个主题相似,并合并两个主题;主题间相似度f1计算公式如下:
f1=2*vectorSim*keywordSim/(vectorSim+keywordSim) (4)
公式(4)中的vectorSim代表以主题包含的所有单词作为维度计算主题余弦相似度,keywordSim代表以主题关键词为维度计算主题余弦相似度,余弦相似度的计算公式同公式(3);
(6)热度计算:经过步骤5得到最终的所有主题,接下来计算主题热度h,筛选出热度高的主题,去掉热度低,即过时的主题;根据热点主题新闻聚集度s高的特点,热度计算公式如下:
ht=∑sim(di,t) (5)
公式(5)中的di表示主题T包含的文章,主题T的热度ht等于主题下文章与主题相似度的和,sim函数同公式(3);
随着时间流逝,一个主题的热度会不断衰减,直至低于阈值该主题被舍弃;热度的衰减,在每次批处理过程中,如果主题T下面有新文章到来,那么主题T的热度ht会相应的增加,ht=ht*Up,如果没有新的文章添加进主题T,那么热度ht会衰减,ht=ht*Down,其中Up>1,Down<1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江网新恒天软件有限公司,未经浙江网新恒天软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611145855.9/1.html,转载请声明来源钻瓜专利网。