[发明专利]基于LDA融合模型和多层聚类的新闻话题检测方法在审
申请号: | 201710289343.8 | 申请日: | 2017-04-27 |
公开(公告)号: | CN107423337A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 喻梅;安永利;于健;于瑞国;赵满坤;谢晓东 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据挖掘、自然语言处理和信息检索领域,为提出新闻话题检测方法,针对基于TF‑IDF向量空间算法语义方面的缺陷,和文本层次聚类时间复杂度和准确度的缺陷,对大量新闻文本的特征提取、表示建模、相似度计算以及快速准确的文本聚类方法进行改进。本发明,基于LDA融合模型和多层聚类的新闻话题检测方法,步骤如下步骤一使用向量空间模型VSM构建相似度模型;步骤二最终得到准确的参数设置;步骤三使两种文本模型有机的融合;步骤四判断该话题是否为新话题;步骤五计算相似度,直到所有文档聚类结束;步骤六在步骤五基础上加入AHC的ISP&AH聚类算法。本发明主要应用于设计制造场合。 | ||
搜索关键词: | 基于 lda 融合 模型 多层 新闻 话题 检测 方法 | ||
【主权项】:
一种基于LDA融合模型和多层聚类的新闻话题检测方法,其特征是,步骤如下:步骤一:使用向量空间模型VSM构建相似度模型,VSM模型每一维度表示对应词的权重向量,对于两个向量d1、d2,用余弦相似度计算方法计算他们两者间的相似度,余弦值越是趋向于1,表示两个向量夹角越大;余弦值趋向于0,也就意味着两个向量方向越是一致,相似度越高;步骤二:使用LDA构建主题模型,利用吉布斯Gibbs方法进行抽样,对模型的各项参数进行计算,通过迭代样本值方式来实现对于马尔科夫链的构建,并使得其最终达到收敛,最终得到准确的参数设置;步骤三:将LDA潜在主题模型和VSM空间向量模型结合,在整个聚类算法运行前,通过文本‑主题关系矩阵,融合基于TF‑IDF权值方法的VSM模型,将VSM模型求得的相似度与LDA模型求得的相似度进行线性表示,并且加权求和得到最终相似度值,使两种文本模型有机的融合;步骤四:使用基于单遍聚类算法Single‑Pass将文本数据进行VSM建模,特征词权重赋予的方式采用TF‑IDF方法,从而将报道表征成一个一个的向量形式。然后将文档流与聚类过程中全部话题进行相似度计算,通过将计算的相似度与预先设定的阈值进行对比,判断该话题是否为新话题;步骤五:使用ISP聚类算法:在步骤四Single‑Pass算法的基础上增加缓存文档流,将步骤四相似度中小于预先设定阈值的相似度放到缓存文档流中,并重新计算相似度,直到所有文档聚类结束;步骤六:在步骤五基础上加入AHC的ISP&AH聚类算法:计算每个文档之间的相似度,建立一个关于文档与文档的相似度矩阵,然后合并矩阵中两个相似度值最大的文档为一个话题集合,用这个新的话题类取代被合并的两个旧的文档,重新迭代化计算相似度矩阵并再次合并,最终达到满足停止条件时停止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710289343.8/,转载请声明来源钻瓜专利网。