[发明专利]一种基于主题鉴别权重和采样式重构的并行化主题模型在审

申请号：	201910161792.3	申请日：	2019-03-04
公开（公告）号：	CN109885839A	公开（公告）日：	2019-06-14
发明（设计）人：	江泓谕;饶洋辉	申请（专利权）人：	中山大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/31
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	陈伟斌
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	鉴别样式重构主题分布主题模型并行化权重和重构的权重混淆优化预处理矩阵自然语言处理人工智能模型参数时间成本输入文档数据挖掘主题提取词汇表采样建模推断并行文本分配
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能的自然语言处理领域以及数据挖掘领域，更具体地，涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。包括以下步骤：S1.将预处理后的输入文档输入LDA(潜在狄利克雷分配，Latent Dirichlet Allocation)中，推断出主题分布；S2.通过当前每个词的主题分布，计算每个词的主题鉴别权重；S3.采样式重构，继续Gibbs采样。本发明基于TW(Term‑Weighting)LDA模型的赋权思想，建立了新的模型SR(Sampling Reconstructed)LDA，针对LDA模型进行文本建模和主题提取时受主题混淆词影响较大的问题，通过计算词汇表中各个词的主题鉴别权重并重构模型参数，降低了主题混淆词的影响。本文模型对所作的矩阵采样式重构和并行加速优化，能得到比TWLDA更好、更稳定的优化效果，并降低了优化所需的时间成本。

技术领域

本发明涉及人工智能的自然语言处理领域以及数据挖掘领域，更具体地，涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。

背景技术

日常生活中总是产生大量的文本，如果要对挖掘这些文本的潜在信息，就要先对他们建模。现有的传统主题模型是Latent Dirichlet Allocation(LDA)，这个模型认为一篇文档由多个主题混合而成，而且每个主题所占比例不同，文档中的每个词都是根据主题中的关键词的概率分布生成的。LDA能分析输入文档，推断出这些文档中由哪些主题混合而成，分别提取出所有主题的代表词(下称主题关键词)，还能根据分析结果来断定每篇文档中含有哪些主题，以及每个主题所占的比例，也就是主题分布。现有的其他主题模型有相当一部分是LDA的变种。

LDA是由概率图模型而来的，最初用于文本建模的概率图模型是Unigram模型，档中的每个词都从一个单独的多项分布中独立采样得到。可理解为有一个V面的骰子，每个词都是通过掷骰子得到的。Unigram模型显然没有考虑到到主题这一层面，所以后来提出了混合Unigram模型，生成过程是，给每个文档选择一个主题，再根据该主题的多项分布生成文档。混合Unigram模型虽然考虑到了主题，但是一篇文档一般不会只有一个主题。

考虑到一篇文章中有多个主题，而且每个主题都是词汇上的概率分布，文章中的每个词都是由一个固定的主题生成的，Hoffman提出了PLSA(Probabilistic LatentSemantic Analysis)模型。假设有两种骰子，一种是文档-主题骰子，有K个面，对应K个主题。第二种是主题-词骰子，有V个面，对应V个词。生成一个词的过程是，先投掷文档-主题骰子，决定主题编号z。再选择编号为z的主题-词骰子来投掷，最后生成词。

LDA相对于PLSA的改进在于，每个文档-主题骰子上的主题分布，以及每个主题-词骰子上的词分布，都分别服从狄利克雷分布。而PLSA中上述两个分布都是确定的，所以PLSA很容易过拟合。

然而，LDA提取出的某些主题关键词在多个主题中均有存在，这种词可以称为主题混淆词。它们还可能把与其相关但与主题无关的词带入主题关键词中，使这些主题语义之间出现混淆，难以理解。为了减小主题混淆词对LDA性能的负面影响，已有学者提出了基于词赋权方案的LDA模型(Term Weighted Latent Dirichlet Allocation，简称TWLDA).

LDA的缺点在于不能处理主题混淆词，这里举例说明什么是主题混淆词。输入的文档全都是食品类文章，提取的主题词很可能都含有“food”这个词。这不仅仅是一种冗余，更严重的后果是，food可能把与其有关的词，但是与主题无关的词也一并带入主题关键词中，导致主题关键词中会出现一些难以理解甚至没有实际意义的词。上述food这种词就是主题混淆词。主题混淆词虽然在一定程度上也有概括主题的能力，但是不应该频繁地出现。

TWLDA的提出就是为了减少主题混淆词的影响，主要思路就是降低主题混淆词的权重。但TWLDA仍有两点不足：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910161792.3/2.html，转载请声明来源钻瓜专利网。

上一篇：从文本中抽取电子邮箱地址的方法
下一篇：通过16位Trie树实现空间优化的词典排序方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于主题鉴别权重和采样式重构的并行化主题模型在审

专利文献下载