[发明专利]基于LDA融合模型和多层聚类的新闻话题检测方法在审

专利信息
申请号: 201710289343.8 申请日: 2017-04-27
公开(公告)号: CN107423337A 公开(公告)日: 2017-12-01
发明(设计)人: 喻梅;安永利;于健;于瑞国;赵满坤;谢晓东 申请(专利权)人: 天津大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 天津市北洋有限责任专利代理事务所12201 代理人: 刘国威
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明属于数据挖掘、自然语言处理和信息检索领域,为提出新闻话题检测方法,针对基于TF‑IDF向量空间算法语义方面的缺陷,和文本层次聚类时间复杂度和准确度的缺陷,对大量新闻文本的特征提取、表示建模、相似度计算以及快速准确的文本聚类方法进行改进。本发明,基于LDA融合模型和多层聚类的新闻话题检测方法,步骤如下步骤一使用向量空间模型VSM构建相似度模型;步骤二最终得到准确的参数设置;步骤三使两种文本模型有机的融合;步骤四判断该话题是否为新话题;步骤五计算相似度,直到所有文档聚类结束;步骤六在步骤五基础上加入AHC的ISP&AH聚类算法。本发明主要应用于设计制造场合。
搜索关键词: 基于 lda 融合 模型 多层 新闻 话题 检测 方法
【主权项】:
一种基于LDA融合模型和多层聚类的新闻话题检测方法,其特征是,步骤如下:步骤一:使用向量空间模型VSM构建相似度模型,VSM模型每一维度表示对应词的权重向量,对于两个向量d1、d2,用余弦相似度计算方法计算他们两者间的相似度,余弦值越是趋向于1,表示两个向量夹角越大;余弦值趋向于0,也就意味着两个向量方向越是一致,相似度越高;步骤二:使用LDA构建主题模型,利用吉布斯Gibbs方法进行抽样,对模型的各项参数进行计算,通过迭代样本值方式来实现对于马尔科夫链的构建,并使得其最终达到收敛,最终得到准确的参数设置;步骤三:将LDA潜在主题模型和VSM空间向量模型结合,在整个聚类算法运行前,通过文本‑主题关系矩阵,融合基于TF‑IDF权值方法的VSM模型,将VSM模型求得的相似度与LDA模型求得的相似度进行线性表示,并且加权求和得到最终相似度值,使两种文本模型有机的融合;步骤四:使用基于单遍聚类算法Single‑Pass将文本数据进行VSM建模,特征词权重赋予的方式采用TF‑IDF方法,从而将报道表征成一个一个的向量形式。然后将文档流与聚类过程中全部话题进行相似度计算,通过将计算的相似度与预先设定的阈值进行对比,判断该话题是否为新话题;步骤五:使用ISP聚类算法:在步骤四Single‑Pass算法的基础上增加缓存文档流,将步骤四相似度中小于预先设定阈值的相似度放到缓存文档流中,并重新计算相似度,直到所有文档聚类结束;步骤六:在步骤五基础上加入AHC的ISP&AH聚类算法:计算每个文档之间的相似度,建立一个关于文档与文档的相似度矩阵,然后合并矩阵中两个相似度值最大的文档为一个话题集合,用这个新的话题类取代被合并的两个旧的文档,重新迭代化计算相似度矩阵并再次合并,最终达到满足停止条件时停止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710289343.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top