[发明专利]一种基于主题鉴别权重和采样式重构的并行化主题模型在审
申请号: | 201910161792.3 | 申请日: | 2019-03-04 |
公开(公告)号: | CN109885839A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 江泓谕;饶洋辉 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/31 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及人工智能的自然语言处理领域以及数据挖掘领域,更具体地,涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。包括以下步骤:S1.将预处理后的输入文档输入LDA(潜在狄利克雷分配,Latent Dirichlet Allocation)中,推断出主题分布;S2.通过当前每个词的主题分布,计算每个词的主题鉴别权重;S3.采样式重构,继续Gibbs采样。本发明基于TW(Term‑Weighting)LDA模型的赋权思想,建立了新的模型SR(Sampling Reconstructed)LDA,针对LDA模型进行文本建模和主题提取时受主题混淆词影响较大的问题,通过计算词汇表中各个词的主题鉴别权重并重构模型参数,降低了主题混淆词的影响。本文模型对所作的矩阵采样式重构和并行加速优化,能得到比TWLDA更好、更稳定的优化效果,并降低了优化所需的时间成本。 | ||
搜索关键词: | 鉴别 样式 重构 主题分布 主题模型 并行化 权重和 重构的 权重 混淆 优化 预处理 矩阵 自然语言处理 人工智能 模型参数 时间成本 输入文档 数据挖掘 主题提取 词汇表 采样 建模 推断 并行 文本 分配 | ||
【主权项】:
1.一种基于主题鉴别权重和采样式重构的并行化主题模型,其特征在于,包括以下步骤:S1.将预处理后的输入文档输入LDA中,推断出主题分布;S2.通过当前每个词的主题分布,计算每个词的主题鉴别权重,计算公式如下:
式中,BH(t)表示词语t的熵,K表示主题的总数;
f(ki)表示主题ki中的总词数,f(t,ki)表示t在主题ki中的出现次数;S3.采样式重构,继续Gibbs采样:S31.得到每个词的主题鉴别权重之后,我们开始着手对文档‑主题矩阵(下称Nmk)和主题‑词矩阵(下称Nkt)进行重构;对Nmk的重构公式如下:
其中σt表示词t的权重,nmkt表示在第m篇文档中,属于主题k的词t有多少个;如果t不在第m篇文档中,或不属于主题k,nmkt均为0;对Nkt的重构也是通过二项式采样
公式如下:
S4.继续进行S3步骤中的Gibbs采样,直到采样次数足够再一次达到收敛为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910161792.3/,转载请声明来源钻瓜专利网。