[发明专利]一种基于主题鉴别权重和采样式重构的并行化主题模型在审

专利信息
申请号: 201910161792.3 申请日: 2019-03-04
公开(公告)号: CN109885839A 公开(公告)日: 2019-06-14
发明(设计)人: 江泓谕;饶洋辉 申请(专利权)人: 中山大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/31
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 陈伟斌
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 鉴别 样式 重构 主题分布 主题模型 并行化 权重和 重构的 权重 混淆 优化 预处理 矩阵 自然语言处理 人工智能 模型参数 时间成本 输入文档 数据挖掘 主题提取 词汇表 采样 建模 推断 并行 文本 分配
【说明书】:

发明涉及人工智能的自然语言处理领域以及数据挖掘领域,更具体地,涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。包括以下步骤:S1.将预处理后的输入文档输入LDA(潜在狄利克雷分配,Latent Dirichlet Allocation)中,推断出主题分布;S2.通过当前每个词的主题分布,计算每个词的主题鉴别权重;S3.采样式重构,继续Gibbs采样。本发明基于TW(Term‑Weighting)LDA模型的赋权思想,建立了新的模型SR(Sampling Reconstructed)LDA,针对LDA模型进行文本建模和主题提取时受主题混淆词影响较大的问题,通过计算词汇表中各个词的主题鉴别权重并重构模型参数,降低了主题混淆词的影响。本文模型对所作的矩阵采样式重构和并行加速优化,能得到比TWLDA更好、更稳定的优化效果,并降低了优化所需的时间成本。

技术领域

本发明涉及人工智能的自然语言处理领域以及数据挖掘领域,更具体地,涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。

背景技术

日常生活中总是产生大量的文本,如果要对挖掘这些文本的潜在信息,就要先对他们建模。现有的传统主题模型是Latent Dirichlet Allocation(LDA),这个模型认为一篇文档由多个主题混合而成,而且每个主题所占比例不同,文档中的每个词都是根据主题中的关键词的概率分布生成的。LDA能分析输入文档,推断出这些文档中由哪些主题混合而成,分别提取出所有主题的代表词(下称主题关键词),还能根据分析结果来断定每篇文档中含有哪些主题,以及每个主题所占的比例,也就是主题分布。现有的其他主题模型有相当一部分是LDA的变种。

LDA是由概率图模型而来的,最初用于文本建模的概率图模型是Unigram模型,档中的每个词都从一个单独的多项分布中独立采样得到。可理解为有一个V面的骰子,每个词都是通过掷骰子得到的。Unigram模型显然没有考虑到到主题这一层面,所以后来提出了混合Unigram模型,生成过程是,给每个文档选择一个主题,再根据该主题的多项分布生成文档。混合Unigram模型虽然考虑到了主题,但是一篇文档一般不会只有一个主题。

考虑到一篇文章中有多个主题,而且每个主题都是词汇上的概率分布,文章中的每个词都是由一个固定的主题生成的,Hoffman提出了PLSA(Probabilistic LatentSemantic Analysis)模型。假设有两种骰子,一种是文档-主题骰子,有K个面,对应K个主题。第二种是主题-词骰子,有V个面,对应V个词。生成一个词的过程是,先投掷文档-主题骰子,决定主题编号z。再选择编号为z的主题-词骰子来投掷,最后生成词。

LDA相对于PLSA的改进在于,每个文档-主题骰子上的主题分布,以及每个主题-词骰子上的词分布,都分别服从狄利克雷分布。而PLSA中上述两个分布都是确定的,所以PLSA很容易过拟合。

然而,LDA提取出的某些主题关键词在多个主题中均有存在,这种词可以称为主题混淆词。它们还可能把与其相关但与主题无关的词带入主题关键词中,使这些主题语义之间出现混淆,难以理解。为了减小主题混淆词对LDA性能的负面影响,已有学者提出了基于词赋权方案的LDA模型(Term Weighted Latent Dirichlet Allocation,简称TWLDA).

LDA的缺点在于不能处理主题混淆词,这里举例说明什么是主题混淆词。输入的文档全都是食品类文章,提取的主题词很可能都含有“food”这个词。这不仅仅是一种冗余,更严重的后果是,food可能把与其有关的词,但是与主题无关的词也一并带入主题关键词中,导致主题关键词中会出现一些难以理解甚至没有实际意义的词。上述food这种词就是主题混淆词。主题混淆词虽然在一定程度上也有概括主题的能力,但是不应该频繁地出现。

TWLDA的提出就是为了减少主题混淆词的影响,主要思路就是降低主题混淆词的权重。但TWLDA仍有两点不足:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910161792.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top