[发明专利]一种基于主题模型的新闻热点检测方法有效

申请号：	201611145855.9	申请日：	2016-12-13
公开（公告）号：	CN106599181B	公开（公告）日：	2019-06-18
发明（设计）人：	庄郭冕;黄乔;彭志宇;付晗;王忆诗	申请（专利权）人：	浙江网新恒天软件有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/35
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	刘静;邱启旺
地址：	310012 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题模型新闻热点检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于主题模型的新闻热点检测方法，其特征在于，包括以下步骤：

(1)采用网络爬虫的方式定向爬取新闻流，每到来N篇新文章进行一次批处理，对爬取数据进行数据清洗、文章分词得到预处理后的文章；

(2)构建向量空间模型：经过预处理操作，原始文档可以看做是由一堆词语构成的，如果把文档看做是一个向量的话，那么每个词语就是一维特征，通过将文档转化为向量，文本数据就变为可以被计算机处理的结构化数据，两个文档之间的相似性问题就转化为了两个向量之间的相似性问题；在计算文档向量每一维的权重时，采用改进的B-TFIDF算法，算法公式如下：

公式(1)中w代表单词，A表示新文章中包含单词w的文章数，B表示新文章中不包含单词w的文章数，C表示历史文章中包含单词w的文章数，D表示历史文章中不包含单词w的文章数，公式(2)中d_i表示第i篇新文章，N表示新文章总数，tf(d,w)表示单词w在文章d中的词频，df(w)表示包含单词w的文章数；B-TFIDF算法将词语的爆发性考虑在内，爆发性即一个词语在短期内突然大量出现；通过以上算法计算构成文档的每个词语的权重，进而生成文章的向量空间模型D_i＝(weight(d_i,w₁),weight(d_i,w₂),weight(d_i,w₃)…..weight(d_i,w_n))，其中n为总词数；

(3)文章聚类：经过步骤2，文本被表示为向量的形式，对文本向量进行聚类；采用LDA主题模型聚类算法，具体为：

LDA聚类过程：LDA是一个三层贝叶斯概率模型，包含词、主题和文档三层，将一篇文章的产生看做是这样一个过程：以一定概率选定某个主题，并在这个主题中以一定概率选定某个词，文档到主题服从多项式分布，主题到词服从多项式分布，通过LDA聚类得到“主题-词语”概率矩阵phi以及“文档-主题”概率矩阵theta，根据“文档-主题”概率矩阵theta得到m个主题和m个主题对应N篇文章的概率，theta的每一行i代表一篇文章，每一列j代表一个主题，对应矩阵值theta_ij是文章i属于主题j的概率；设置筛选阈值为thresholdT，若theta_ij>thresholdT则认为文章i属于主题j，由此选出每个主题对应的文章；

LDA聚类个数m的确定：分别设置聚类个数为N/10-N/5重复执行LDA聚类算法，然后计算每一次执行结果的主题间相似度，选择主题间相似度最低的执行结果对应的主题个数；主题间相似度的计算根据LDA聚类得到的“主题-词语”概率矩阵phi，phi的每一行j代表一个主题T_j，每一列k代表一个单词w_k，phi_jk代表主题T_j包含单词w_k的概率；Phi的一行可以看做主题T_j的向量形式

T_j＝(w₁,w₂,w₃,…w_k…w_n)，n为总词数；计算主题两两之间的相似度，求相似度平均值，取最小值作为最终的主题间相似度；相似度的计算采用余弦相似度的计算方法，计算公式如下：

公式(3)中的T_i和T_j代表两个主题，ω_k(T_i)代表主题T_i在维度k上的值，n表示总词数；

(4)主题关键词提取：从主题下所有文章的题目中提取关键词，先对文章题目进行分词，过滤掉停止词，无意义词和标点符号，剩下的词作为主题关键词；

(5)话题合并：由步骤3得到m个主题和其对应的文章，接下来将m个新主题与旧主题进行合并，计算主题间相似度f1，若f1>0.5则认为两个主题相似，并合并两个主题；主题间相似度f1计算公式如下：

f1＝2*vectorSim*keywordSim/(vectorSim+keywordSim) (4)

公式(4)中的vectorSim代表以主题包含的所有单词作为维度计算主题余弦相似度，keywordSim代表以主题关键词为维度计算主题余弦相似度，余弦相似度的计算公式同公式(3)；

(6)热度计算：经过步骤5得到最终的所有主题，接下来计算主题热度h，筛选出热度高的主题，去掉热度低，即过时的主题；根据热点主题新闻聚集度s高的特点，热度计算公式如下：

h_t＝∑sim(d_i,t) (5)

公式(5)中的d_i表示主题T包含的文章，主题T的热度h_t等于主题下文章与主题相似度的和，sim函数同公式(3)；

随着时间流逝，一个主题的热度会不断衰减，直至低于阈值该主题被舍弃；热度的衰减，在每次批处理过程中，如果主题T下面有新文章到来，那么主题T的热度h_t会相应的增加，h_t＝h_t*Up，如果没有新的文章添加进主题T，那么热度h_t会衰减，h_t＝h_t*Down，其中Up＞1，Down＜1。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江网新恒天软件有限公司，未经浙江网新恒天软件有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611145855.9/1.html，转载请声明来源钻瓜专利网。

上一篇：异常数据的处理方法和装置
下一篇：基于spark streaming实时流的特征工程推荐方法及装置、视频网站

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于主题模型的新闻热点检测方法有效

专利文献下载