[发明专利]一种罗杰斯特‑正态模型话题提取方法有效
申请号: | 201410056958.2 | 申请日: | 2014-02-19 |
公开(公告)号: | CN103810282B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 朱军;陈键飞;王紫;张钹 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李迪 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种罗杰斯特‑正态模型话题提取方法,包括S1参数服务器将计数矩阵分布式存储在计算节点上,将训练集中的所有文档分发给计算节点;S2对文档中的每个单词对应的话题进行吉布斯采样;S3采样本文档的特征向量;S4计算本节点中每个文档的特征向量的和、平方和及均值和协方差所服从的后验分布,从后验分布中采样每个文档的特征向量的均值和协方差;S5判断迭代次数是否到预定常数,如果是,则停止迭代,执行S6,否则迭代次数加1,执行S2、S3、S4;S6对本计算节点的文档依次执行S2、S3,对S3中所采样的特征向量做软最大值变换,输出本计算节点中的每个文档中每个话题占该文档的比例。通过该方法,能够提高话题提取的速度。 | ||
搜索关键词: | 一种 罗杰斯特 模型 话题 提取 方法 | ||
【主权项】:
一种罗杰斯特‑正态模型话题提取方法,其特征在于,该方法包括:S1:参数服务器将训练集中话题与单词对应关系的计数矩阵分布式存储在计算节点上,参数服务器将训练集中的所有文档分发给所述计算节点,每个计算节点保存所述计数矩阵和参数服务器发来的文档;S2:计算节点对本计算节点中的文档中的每个单词对应的话题根据本计算节点存储的计数矩阵进行吉布斯采样;S3:计算节点根据本计算节点所采样的文档中的每个单词的话题采样本文档的特征向量;S4:计算节点计算本节点中每个文档的特征向量的和、平方和,利用所述和、平方和计算所有所述特征向量的均值和协方差所服从的后验分布,并从后验分布中采样每个文档的特征向量的均值和协方差;S5:计算节点中,判断迭代次数是否达到预定常数,如果是,则停止迭代,执行S6,如果否,则迭代次数加1,依次执行S2、S3、S4;S6:计算节点中,对本计算节点的文档依次执行S2、S3,对S3中所采样的特征向量做软最大值变换,输出本计算节点中的每个文档中每个话题所占该文档的比例。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410056958.2/,转载请声明来源钻瓜专利网。