[发明专利]基于LDA融合模型和多层聚类的新闻话题检测方法在审

申请号：	201710289343.8	申请日：	2017-04-27
公开（公告）号：	CN107423337A	公开（公告）日：	2017-12-01
发明（设计）人：	喻梅;安永利;于健;于瑞国;赵满坤;谢晓东	申请（专利权）人：	天津大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	天津市北洋有限责任专利代理事务所12201	代理人：	刘国威
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于数据挖掘、自然语言处理和信息检索领域，为提出新闻话题检测方法，针对基于TF‑IDF向量空间算法语义方面的缺陷，和文本层次聚类时间复杂度和准确度的缺陷，对大量新闻文本的特征提取、表示建模、相似度计算以及快速准确的文本聚类方法进行改进。本发明，基于LDA融合模型和多层聚类的新闻话题检测方法，步骤如下步骤一使用向量空间模型VSM构建相似度模型；步骤二最终得到准确的参数设置；步骤三使两种文本模型有机的融合；步骤四判断该话题是否为新话题；步骤五计算相似度，直到所有文档聚类结束；步骤六在步骤五基础上加入AHC的ISP&AH聚类算法。本发明主要应用于设计制造场合。
搜索关键词：	基于 lda 融合模型多层新闻话题检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于LDA融合模型和多层聚类的新闻话题检测方法，其特征是，步骤如下：步骤一：使用向量空间模型VSM构建相似度模型，VSM模型每一维度表示对应词的权重向量，对于两个向量d1、d2,用余弦相似度计算方法计算他们两者间的相似度，余弦值越是趋向于1，表示两个向量夹角越大；余弦值趋向于0，也就意味着两个向量方向越是一致，相似度越高；步骤二：使用LDA构建主题模型，利用吉布斯Gibbs方法进行抽样，对模型的各项参数进行计算，通过迭代样本值方式来实现对于马尔科夫链的构建，并使得其最终达到收敛，最终得到准确的参数设置；步骤三：将LDA潜在主题模型和VSM空间向量模型结合，在整个聚类算法运行前，通过文本‑主题关系矩阵，融合基于TF‑IDF权值方法的VSM模型，将VSM模型求得的相似度与LDA模型求得的相似度进行线性表示，并且加权求和得到最终相似度值，使两种文本模型有机的融合；步骤四：使用基于单遍聚类算法Single‑Pass将文本数据进行VSM建模，特征词权重赋予的方式采用TF‑IDF方法，从而将报道表征成一个一个的向量形式。然后将文档流与聚类过程中全部话题进行相似度计算，通过将计算的相似度与预先设定的阈值进行对比，判断该话题是否为新话题；步骤五：使用ISP聚类算法：在步骤四Single‑Pass算法的基础上增加缓存文档流，将步骤四相似度中小于预先设定阈值的相似度放到缓存文档流中，并重新计算相似度，直到所有文档聚类结束；步骤六：在步骤五基础上加入AHC的ISP&AH聚类算法：计算每个文档之间的相似度，建立一个关于文档与文档的相似度矩阵，然后合并矩阵中两个相似度值最大的文档为一个话题集合，用这个新的话题类取代被合并的两个旧的文档，重新迭代化计算相似度矩阵并再次合并，最终达到满足停止条件时停止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710289343.8/，转载请声明来源钻瓜专利网。

上一篇：一种数据处理方法、装置及计算机存储介质
下一篇：一种铁路综合检测数据显示方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于LDA融合模型和多层聚类的新闻话题检测方法在审

专利文献下载