[发明专利]一种基于主题鉴别权重和采样式重构的并行化主题模型在审
申请号: | 201910161792.3 | 申请日: | 2019-03-04 |
公开(公告)号: | CN109885839A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 江泓谕;饶洋辉 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/31 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 鉴别 样式 重构 主题分布 主题模型 并行化 权重和 重构的 权重 混淆 优化 预处理 矩阵 自然语言处理 人工智能 模型参数 时间成本 输入文档 数据挖掘 主题提取 词汇表 采样 建模 推断 并行 文本 分配 | ||
本发明涉及人工智能的自然语言处理领域以及数据挖掘领域,更具体地,涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。包括以下步骤:S1.将预处理后的输入文档输入LDA(潜在狄利克雷分配,Latent Dirichlet Allocation)中,推断出主题分布;S2.通过当前每个词的主题分布,计算每个词的主题鉴别权重;S3.采样式重构,继续Gibbs采样。本发明基于TW(Term‑Weighting)LDA模型的赋权思想,建立了新的模型SR(Sampling Reconstructed)LDA,针对LDA模型进行文本建模和主题提取时受主题混淆词影响较大的问题,通过计算词汇表中各个词的主题鉴别权重并重构模型参数,降低了主题混淆词的影响。本文模型对所作的矩阵采样式重构和并行加速优化,能得到比TWLDA更好、更稳定的优化效果,并降低了优化所需的时间成本。
技术领域
本发明涉及人工智能的自然语言处理领域以及数据挖掘领域,更具体地,涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。
背景技术
日常生活中总是产生大量的文本,如果要对挖掘这些文本的潜在信息,就要先对他们建模。现有的传统主题模型是Latent Dirichlet Allocation(LDA),这个模型认为一篇文档由多个主题混合而成,而且每个主题所占比例不同,文档中的每个词都是根据主题中的关键词的概率分布生成的。LDA能分析输入文档,推断出这些文档中由哪些主题混合而成,分别提取出所有主题的代表词(下称主题关键词),还能根据分析结果来断定每篇文档中含有哪些主题,以及每个主题所占的比例,也就是主题分布。现有的其他主题模型有相当一部分是LDA的变种。
LDA是由概率图模型而来的,最初用于文本建模的概率图模型是Unigram模型,档中的每个词都从一个单独的多项分布中独立采样得到。可理解为有一个V面的骰子,每个词都是通过掷骰子得到的。Unigram模型显然没有考虑到到主题这一层面,所以后来提出了混合Unigram模型,生成过程是,给每个文档选择一个主题,再根据该主题的多项分布生成文档。混合Unigram模型虽然考虑到了主题,但是一篇文档一般不会只有一个主题。
考虑到一篇文章中有多个主题,而且每个主题都是词汇上的概率分布,文章中的每个词都是由一个固定的主题生成的,Hoffman提出了PLSA(Probabilistic LatentSemantic Analysis)模型。假设有两种骰子,一种是文档-主题骰子,有K个面,对应K个主题。第二种是主题-词骰子,有V个面,对应V个词。生成一个词的过程是,先投掷文档-主题骰子,决定主题编号z。再选择编号为z的主题-词骰子来投掷,最后生成词。
LDA相对于PLSA的改进在于,每个文档-主题骰子上的主题分布,以及每个主题-词骰子上的词分布,都分别服从狄利克雷分布。而PLSA中上述两个分布都是确定的,所以PLSA很容易过拟合。
然而,LDA提取出的某些主题关键词在多个主题中均有存在,这种词可以称为主题混淆词。它们还可能把与其相关但与主题无关的词带入主题关键词中,使这些主题语义之间出现混淆,难以理解。为了减小主题混淆词对LDA性能的负面影响,已有学者提出了基于词赋权方案的LDA模型(Term Weighted Latent Dirichlet Allocation,简称TWLDA).
LDA的缺点在于不能处理主题混淆词,这里举例说明什么是主题混淆词。输入的文档全都是食品类文章,提取的主题词很可能都含有“food”这个词。这不仅仅是一种冗余,更严重的后果是,food可能把与其有关的词,但是与主题无关的词也一并带入主题关键词中,导致主题关键词中会出现一些难以理解甚至没有实际意义的词。上述food这种词就是主题混淆词。主题混淆词虽然在一定程度上也有概括主题的能力,但是不应该频繁地出现。
TWLDA的提出就是为了减少主题混淆词的影响,主要思路就是降低主题混淆词的权重。但TWLDA仍有两点不足:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910161792.3/2.html,转载请声明来源钻瓜专利网。