[发明专利]一种基于词嵌入的高斯LDA的优化求解方式有效

申请号：	201811301465.5	申请日：	2018-11-02
公开（公告）号：	CN109597875B	公开（公告）日：	2022-08-23
发明（设计）人：	许振豪;谭北海	申请（专利权）人：	广东工业大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/35
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510006 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于嵌入 lda 优化求解方式
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述优化求解方法的步骤如下：

S1：输入文档集D，设置迭代次数T、模型超参数α，γ，同时初始化n_v，k，n_k，n_d，k，n_d；α表示狄利克雷分布的超参数；γ表示逆威沙特分布的伪计数；n_v，k表示词嵌入v被赋予主题k的数量；n_k表示被赋予主题k的所有词嵌入数量；n_d，k表示文档d中被赋予主题k的词嵌入数量；n_d表示文档d的词嵌入数量；

S2：采用逆威沙特分布W^-1(Ψ，γ)求主题-词嵌入分布的方差∑_k、采用多元高斯分布N(μ＝0，∑_k)求主题-词嵌入分布的均值μ_k，采用狄利克雷分布Dir(α)求出文档-主题分布θ_d，对该文档下的每个词嵌入分配一个主题，采用多元高斯分布抽取文档d的每个位置的词嵌入，得到当前词嵌入的主编号；Ψ表示正定的比例矩阵；

S3：更新μ_k，γ_k，k_k，利用Cholesky矩阵分解计算矩阵Ψ_k，根据矩阵Ψ_k和方差∑_k计算后验预测概率分布；k_k表示逆威沙特分布的伪计数1；γ_k表示逆威沙特分布的伪计数2；

S4：采用Alias采样进行迭代采样，直到迭代结束，输出参数：文档-主题概率分布和主题-词嵌入概率分布。

2.根据权利要求1所述的基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述S1的具体步骤如下：

S11：输入文档集D，通过分词且训练成词嵌入序列V_d；

S12：根据文档集D，设置迭代次数T、模型超参数α，γ；

S13：初始化统计量，为文档集D中每个词嵌入v随机赋予一个主题编号，即z＝randomtopic index k，k∈[1，...K]，每个文档d∈[1，...，D]，并将n_v，k，n_k，n_d，k，n_d初始化；k表示主题编号变量、K表示主题边界值；

其中：n_v，k表示词嵌入v被赋予主题k的数量；n_k表示被赋予主题k的所有词嵌入数量；n_d，k表示文档d中被赋予主题k的词嵌入数量；n_d表示文档d的词嵌入数量、α表示狄利克雷分布的超参数、γ表示逆威沙特分布的伪计数。

3.根据权利要求2所述的基于词嵌入的高斯LDA的优化求解方法，其特征在于：所述S2的具体步骤如下：

S21：采用逆威沙特分布W^-1(Ψ，γ)抽取主题-词嵌入分布的方差∑_k，并根据∑_k，采用多元高斯分布N(μ＝0，∑_k)中抽取主题-词嵌入分布的均值μ_k；

S22：对每个文档d＝[1，...，D]，采用狄利克雷分布Dir(α)分布中抽取文档-主题分布θ_d，在该文档下，每个词嵌入i∈[1，...，N_d]；N_d表示文档d的第N个词；

S23：对于文档d的每个位置的词嵌入i∈[1，...，N_d]分配一个主题z_d，i～Mult(θ_d)，采用多元高斯分布N(μ_k，∑_k)为该文档抽取词嵌入v_d，i；

S24：对文档中的每个词嵌入v_d，i，得到当前词嵌入的主题编号，t＝z_d，i；t表示词嵌入v_d，i的主题；Mult(θ_d)表示文档d的主题分布；

其中：v_d，i表示文档d中第i个词嵌入。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811301465.5/1.html，转载请声明来源钻瓜专利网。

上一篇：信息推荐方法、装置及服务器
下一篇：一种基于强化学习的多轮对话答复选择模型及其方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于词嵌入的高斯LDA的优化求解方式有效

专利文献下载