[发明专利]一种基于主题鉴别权重和采样式重构的并行化主题模型在审

专利信息
申请号: 201910161792.3 申请日: 2019-03-04
公开(公告)号: CN109885839A 公开(公告)日: 2019-06-14
发明(设计)人: 江泓谕;饶洋辉 申请(专利权)人: 中山大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/31
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 陈伟斌
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及人工智能的自然语言处理领域以及数据挖掘领域,更具体地,涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。包括以下步骤:S1.将预处理后的输入文档输入LDA(潜在狄利克雷分配,Latent Dirichlet Allocation)中,推断出主题分布;S2.通过当前每个词的主题分布,计算每个词的主题鉴别权重;S3.采样式重构,继续Gibbs采样。本发明基于TW(Term‑Weighting)LDA模型的赋权思想,建立了新的模型SR(Sampling Reconstructed)LDA,针对LDA模型进行文本建模和主题提取时受主题混淆词影响较大的问题,通过计算词汇表中各个词的主题鉴别权重并重构模型参数,降低了主题混淆词的影响。本文模型对所作的矩阵采样式重构和并行加速优化,能得到比TWLDA更好、更稳定的优化效果,并降低了优化所需的时间成本。
搜索关键词: 鉴别 样式 重构 主题分布 主题模型 并行化 权重和 重构的 权重 混淆 优化 预处理 矩阵 自然语言处理 人工智能 模型参数 时间成本 输入文档 数据挖掘 主题提取 词汇表 采样 建模 推断 并行 文本 分配
【主权项】:
1.一种基于主题鉴别权重和采样式重构的并行化主题模型,其特征在于,包括以下步骤:S1.将预处理后的输入文档输入LDA中,推断出主题分布;S2.通过当前每个词的主题分布,计算每个词的主题鉴别权重,计算公式如下:式中,BH(t)表示词语t的熵,K表示主题的总数;f(ki)表示主题ki中的总词数,f(t,ki)表示t在主题ki中的出现次数;S3.采样式重构,继续Gibbs采样:S31.得到每个词的主题鉴别权重之后,我们开始着手对文档‑主题矩阵(下称Nmk)和主题‑词矩阵(下称Nkt)进行重构;对Nmk的重构公式如下:其中σt表示词t的权重,nmkt表示在第m篇文档中,属于主题k的词t有多少个;如果t不在第m篇文档中,或不属于主题k,nmkt均为0;对Nkt的重构也是通过二项式采样公式如下:S4.继续进行S3步骤中的Gibbs采样,直到采样次数足够再一次达到收敛为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910161792.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top