[发明专利]一种LDA并行优化方法在审
申请号: | 201710237926.6 | 申请日: | 2017-04-13 |
公开(公告)号: | CN107168944A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 王华扬;宋奎勇;何鸣;王红滨;王念滨;陈龙;王瑛琦;童鹏鹏;赵新杰;王昆明 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 lda 并行 优化 方法 | ||
1.一种LDA并行优化方法,其特征是:
(1)将文档集X均匀划分到P台处理器上;
(2)初始化计数,将相关计数nm(k),nk(t),nm,nk初始化置为0,将文档块中每篇文档中的每一个词随机赋予一个主题编号k;
(3)设置模型迭代次数,在模型每次迭代过程中
(4)对于每台处理器分别执行下述步骤;
(5)全局参数复制给局部参数:
(6)采用基于高斯函数的词加权方法对文档集中的词赋予一个权重值,使用吉布斯采样公式更新本地相关统计计数nm(k),nk(t),nm,nk;
(7)循环结束;
(8)等待所有处理器达到同步;
(9)更新全局参数
(10)直至达到终止条件,输出模型参数:文档-主题概率分布θm,k和主题-词概率分布
2.根据权利要求1所述的LDA并行优化方法,其特征是:所述采用基于高斯函数的词加权方法对文档集中的词赋予一个权重值具体包括:
(1)初始化吉布斯采样中的计数为0;
(2)M为文档集中文档的数量,对于每篇文档编号m∈[1,M];
(3)Nm为第m篇文档中词的个数,对于每篇文档中第n∈[1,Nm]个词wm,n=wi;
(4)为每个词随机采样赋予一个主题编号zm,n∈[1,K],K为设定的主题数;
(5)计数nm(k)加上词wm,n对应的权重其中
(6)计数nm加上词wmn对应的权重其中
(7)计数nk(t)加上词wm,n对应的权重其中
(8)计数nk加上词wm,n对应的权重其中
(9)初始化过程结束;
(10)计数nm(k)减去词wm,n对应的权重
(11)计数nm减去词wm,n对应的权重
(12)计数nk(t)减去词wm,n对应的权重
(13)计数nk减去每词wm,n对应的权重
(14)采样得到词wm,n在每个主题k∈[1,K]上的概率分布;
(15)根据采样公式进行采样;
(16)计数nm(k)加上词wm,n对应的权重其中
(17)计数nm加上词wm,n对应的权重其中
(18)计数nk(t)加上词wm,n对应的权重其中
(19)计数nk加上词wm,n对应的权重其中
(20)直至达到结束条件,输出Nwk。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710237926.6/1.html,转载请声明来源钻瓜专利网。