[发明专利]一种基于主题模型的新闻热点检测方法有效

专利信息
申请号: 201611145855.9 申请日: 2016-12-13
公开(公告)号: CN106599181B 公开(公告)日: 2019-06-18
发明(设计)人: 庄郭冕;黄乔;彭志宇;付晗;王忆诗 申请(专利权)人: 浙江网新恒天软件有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/35
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 刘静;邱启旺
地址: 310012 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于主题模型的新闻热点检测方法,通过网络爬虫定向爬取新闻流,首先对文章进行分词,去除停用词及无意义字符串等预处理,继而对预处理后的文章进行特征提取,构建文本模型,然后通过文本聚类算法将相似度程度高的文本加入到最相似的类别中,得到主题库,接着对新老主题进行相似度计算,对于相似度高的新老主题进行合并,最后进行主题热度计算,通过排序选出最热的主题。本发明创新性地将LDA算法应用在热点主题发现中,并提出了爆发性的概念,能够及时有效地发现最新热点新闻,同时提出了主题热度衰减概念,能够实时记录跟踪主题热度,真实地反映了新闻热点的发展变化,对于热点新闻的追踪展示具有重要意义。
搜索关键词: 一种 基于 主题 模型 新闻 热点 检测 方法
【主权项】:
1.一种基于主题模型的新闻热点检测方法,其特征在于,包括以下步骤:(1)采用网络爬虫的方式定向爬取新闻流,每到来N篇新文章进行一次批处理,对爬取数据进行数据清洗、文章分词得到预处理后的文章;(2)构建向量空间模型:经过预处理操作,原始文档可以看做是由一堆词语构成的,如果把文档看做是一个向量的话,那么每个词语就是一维特征,通过将文档转化为向量,文本数据就变为可以被计算机处理的结构化数据,两个文档之间的相似性问题就转化为了两个向量之间的相似性问题;在计算文档向量每一维的权重时,采用改进的B‑TFIDF算法,算法公式如下:公式(1)中w代表单词,A表示新文章中包含单词w的文章数,B表示新文章中不包含单词w的文章数,C表示历史文章中包含单词w的文章数,D表示历史文章中不包含单词w的文章数,公式(2)中di表示第i篇新文章,N表示新文章总数,tf(d,w)表示单词w在文章d中的词频,df(w)表示包含单词w的文章数;B‑TFIDF算法将词语的爆发性考虑在内,爆发性即一个词语在短期内突然大量出现;通过以上算法计算构成文档的每个词语的权重,进而生成文章的向量空间模型Di=(weight(di,w1),weight(di,w2),weight(di,w3)…..weight(di,wn)),其中n为总词数;(3)文章聚类:经过步骤2,文本被表示为向量的形式,对文本向量进行聚类;采用LDA主题模型聚类算法,具体为:LDA聚类过程:LDA是一个三层贝叶斯概率模型,包含词、主题和文档三层,将一篇文章的产生看做是这样一个过程:以一定概率选定某个主题,并在这个主题中以一定概率选定某个词,文档到主题服从多项式分布,主题到词服从多项式分布,通过LDA聚类得到“主题‑词语”概率矩阵phi以及“文档‑主题”概率矩阵theta,根据“文档‑主题”概率矩阵theta得到m个主题和m个主题对应N篇文章的概率,theta的每一行i代表一篇文章,每一列j代表一个主题,对应矩阵值thetaij是文章i属于主题j的概率;设置筛选阈值为thresholdT,若thetaij>thresholdT则认为文章i属于主题j,由此选出每个主题对应的文章;LDA聚类个数m的确定:分别设置聚类个数为N/10‑N/5重复执行LDA聚类算法,然后计算每一次执行结果的主题间相似度,选择主题间相似度最低的执行结果对应的主题个数;主题间相似度的计算根据LDA聚类得到的“主题‑词语”概率矩阵phi,phi的每一行j代表一个主题Tj,每一列k代表一个单词wk,phijk代表主题Tj包含单词wk的概率;Phi的一行可以看做主题Tj的向量形式Tj=(w1,w2,w3,…wk…wn),n为总词数;计算主题两两之间的相似度,求相似度平均值,取最小值作为最终的主题间相似度;相似度的计算采用余弦相似度的计算方法,计算公式如下:公式(3)中的Ti和Tj代表两个主题,ωk(Ti)代表主题Ti在维度k上的值,n表示总词数;(4)主题关键词提取:从主题下所有文章的题目中提取关键词,先对文章题目进行分词,过滤掉停止词,无意义词和标点符号,剩下的词作为主题关键词;(5)话题合并:由步骤3得到m个主题和其对应的文章,接下来将m个新主题与旧主题进行合并,计算主题间相似度f1,若f1>0.5则认为两个主题相似,并合并两个主题;主题间相似度f1计算公式如下:f1=2*vectorSim*keywordSim/(vectorSim+keywordSim)  (4)公式(4)中的vectorSim代表以主题包含的所有单词作为维度计算主题余弦相似度,keywordSim代表以主题关键词为维度计算主题余弦相似度,余弦相似度的计算公式同公式(3);(6)热度计算:经过步骤5得到最终的所有主题,接下来计算主题热度h,筛选出热度高的主题,去掉热度低,即过时的主题;根据热点主题新闻聚集度s高的特点,热度计算公式如下:ht=∑sim(di,t)  (5)公式(5)中的di表示主题T包含的文章,主题T的热度ht等于主题下文章与主题相似度的和,sim函数同公式(3);随着时间流逝,一个主题的热度会不断衰减,直至低于阈值该主题被舍弃;热度的衰减,在每次批处理过程中,如果主题T下面有新文章到来,那么主题T的热度ht会相应的增加,ht=ht*Up,如果没有新的文章添加进主题T,那么热度ht会衰减,ht=ht*Down,其中Up>1,Down<1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江网新恒天软件有限公司,未经浙江网新恒天软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611145855.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top