[发明专利]一种罗杰斯特‑正态模型话题提取方法有效
申请号: | 201410056958.2 | 申请日: | 2014-02-19 |
公开(公告)号: | CN103810282B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 朱军;陈键飞;王紫;张钹 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李迪 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 罗杰斯特 模型 话题 提取 方法 | ||
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种罗杰斯特-正态模型话题提取方法。
背景技术
隐式话题模型在挖掘文档语义信息和处理复杂的文档结构方面都体现出了明显的优势,利用隐式话题模型挖掘大规模文档中的语义结构需要解决的问题主要是:文档数量十分庞大,需要在分布式计算环境中可用的算法;模型的灵活性,如提取话题的相关性。
如今应用隐式话题模型的数据已经从小规模的文本集发展到大规模的社会网络、乃至整个互联网。传统的单机学习方法无法适应大数据的要求,需要快速、并且可以在分布式计算环境下运行的算法。
现有技术中,利用关联话题模型,通过采用非共轭罗杰斯特正态模型,提取话题相关性,在关联话题模型中,罗杰斯特正态模型的学习算法使用变分法,通过数值算法多次迭代进行求解。
通过上述描述可见,关联话题模型中的罗杰斯特正态模型的学习算法使用变分法,通过数值算法多次迭代进行求解,效率较低,速度低。
发明内容
本发明提供了一种罗杰斯特-正态模型话题提取方法,能够提高话题提取的速度。
本发明提供了一种罗杰斯特-正态模型话题提取方法,该方法包括:
S1:参数服务器将训练集中话题与单词对应关系的计数矩阵分布式存储在计算节点上,参数服务器将训练集中的所有文档分发给所述计算节点,每个计算节点保存所述计数矩阵和参数服务器发来的文档;
S2:计算节点对本计算节点中的文档中的每个单词对应的话题根据本计算节点存储的计数矩阵进行吉布斯采样;
S3:计算节点根据本计算节点所采样的文档中的每个单词的话题采样本文档的特征向量;
S4:计算节点计算本节点中每个文档的特征向量的和、平方和,利用所述和、平方和计算所有所述特征向量的均值和协方差所服从的后验分布,并从后验分布中采样每个文档的特征向量的均值和协方差;
S5:计算节点中,判断迭代次数是否达到预定常数,如果是,则停止迭代,执行S6,如果否,则迭代次数加1,依次执行S2、S3、S4;
S6:计算节点中,对本计算节点的文档依次执行S2、S3,对S3中所采样的特征向量做软最大值变换,输出本计算节点中的每个文档中每个话题所占该文档的比例。
进一步地,所述方法进一步包括:
计算节点将所述话题的后验分布拆分成本节点存储的所述计数矩阵的项和先验的项,通过引入增广均匀分布随机变量采样,当从所述计数矩阵的项采样时只采样非零元。
进一步地,所述计算节点根据本计算节点所采样的文档中的每个单词的话题采样本文档的特征向量,进一步包括:
S31:对所述特征向量的每一维引入增广变量;
S32:从当前特征向量下的每一维增广变量的条件分布中利用高斯分布近似采样该增广变量;
S33:从给定所述特征向量的其他所有维以及增广变量后,特征向量的某一维的条件分布中依次采样所述特征向量的每一维;
S34:判断所述循环次数是否到达预设循环次数,如果否,则循环次数加1,依次执行S32、S33。
进一步地,所述预设循环次数为8次。
进一步地,所述步骤S32,包括:从当前特征向量下的任一维增广变量的条件分布中利用经过变换的Polya-Gamma(1,z)分布近似采样该增广变量。
进一步地,所述方法还包括:在任一话题的后验分布中将隐式话题-单词分布矩阵通过积分去掉。
进一步地,所述方法还包括:
计算节点记录本计算节点的计数矩阵的增量,周期性地将该计数矩阵的每一行与该行对应的参数服务器进行同步,其中,所述参数服务器是分布式服务器,该计数矩阵的不同行存储在不同的节点上。
进一步地,所述计算节点记录本计算节点的计数矩阵的增量,周期性地将该计数矩阵的每一行与这一行对应的参数服务器进行同步,具体包括:
按照所述行的编号计算存储器的参数服务器,将该行在本计算节点上的增量发送到参数服务器;
参数服务器根据发来的增量更新参数服务器中的计数矩阵,将参数服务器上对应的行与计算节点上的所述行的差发送回所述计算节点;
计算节点根据接收到的差值更新本计算节点上的该行。
通过本发明提供的一种罗杰斯特-正态模型话题提取方法,通过分布式计算处理大规模数据,并能够提高话题提取的速度。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410056958.2/2.html,转载请声明来源钻瓜专利网。