[发明专利]一种基于层次狄利克雷多项分配模型的多源文本聚类方法在审
申请号: | 202010570969.8 | 申请日: | 2020-06-22 |
公开(公告)号: | CN111813935A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 黄瑞章;许伟佳;秦永彬;陈艳平 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 张成 |
地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 狄利克雷 多项 分配 模型 文本 方法 | ||
本发明公开了一种基于层次狄利克雷多项分配模型的多源文本聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于层次狄利克雷多项分配模型构建主题模型;四、进行Blocked Gibbs采样并更新参数;五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数,改善多源文本聚类效果;所建立的模型能够自动判别每个数据源文本中簇的数目,而不需要人为提前给定,能够较大程度地提高多源文本聚类效果。
技术领域
本发明涉及一种文本聚类方法,尤其涉及一种基于层次狄利克雷多项分配模型的多源文本聚类方法,属于机器学习和自然语言处理技术领域。
背景技术
随着信息技术的飞速发展,人们获取信息的途径越来越多,尤其是文本信息。文本信息来源不同,其信息特征也不一致。我们可以从多源文本数据集中挖掘其主题信息以及文本结构信息,这对于很多场景都是非常有必要的。例如从各种新闻网站、论坛和社交媒体等来源挖掘其文本信息可以帮助我们了解社会关注的热点话题,除此之外,我们通过分析市民热线、交通公告牌等各种来源的交通信息,发现突发交通事故。因此,研究一种基于多源文本数据集的主题模型,挖掘多源文本数据集中的信息是非常有必要的。
用传统的主题模型挖掘多源文本数据集的文本信息有很多困难,比如说:1)多个数据源的主题的词分布相似但不相同。例如,新闻网站的文章倾向于用标准术语描述一个主题,而社交媒体文档中的词汇则更随意。因此,直接采用传统的主题模型挖掘来解决多源文档的聚类问题是不可行的,因为不同来源的主题的书写风格差异严重影响了文档的聚类性能。2)估计聚类数K对于多源文档聚类也是困难的。对于大多数传统的文档聚类方法来说,K被认为是用户事先确定的一个参数,但在动手前提供正确的K值是困难和不切实际的。此外,对于不同的数据源,K通常是不同的,这大大增加了估计正确K的难度。不恰当的K个数会误导聚类过程,导致文档聚类性能下降。因此,如果多源文档聚类方法能够自动地了解每个数据源的聚类数K,这是很有用的。3)传统的文档聚类方法假设每个数据源的主题分布不同。例如,AIJNewsweek大部分主题聚焦在“政治新闻”、“技术新闻”、“商业新闻”等在内的新闻类别,而“华尔街新闻”的新闻文章则更多地与“经济新闻”相关。每个数据源的主题比例的差异也说明了为什么每个数据源的主题数K不同。因此,自动发现源级主题比例有助于准确发现多源文档的文档结构。
因此,针对上述三个问题,需要一种新的针对多源文本数据的聚类方法以获取更理想的聚类效果。
发明内容
本发明要解决的技术问题是:提供一种基于层次狄利克雷多项分配模型的多源文本聚类方法,采用两步分层主题生成过程研究了HDMA模型。学习的主题在数据源之间共享其一般特性,同时保留数据源的本地特性。每个数据源都应用一个独占的主题分区来学习源级别的主题强调。此外,本发明能够自动识别多源数据集中每个数据集的文本簇数的数目,不需要提前人为设定,有效的解决了上述存在的问题。
本发明的技术方案为:一种基于层次狄利克雷多项分配模型的多源文本聚类方法,所述方法包含有如下步骤:一、从多个来源收集文本集;二、将来自多个数据源的文本信息进行文本预处理;三、基于层次狄利克雷多项分配模型构建主题模型;四、进行BlockedGibbs采样并更新参数β;五、根据采样结果进行文本聚类。
所述步骤二中,预处理方法是进行分词,去停用词、低频词及标点数字。
所述步骤三中,构建的多源主题模型文本生成步骤为:
1)对于每个主题k:
A.选择βk,i~N(μ,σ2I),i=1,2,…,V
B.对于每个数据源s:
选择
2)对于每一个数据源s:
C.选择
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010570969.8/2.html,转载请声明来源钻瓜专利网。