[发明专利]主题模型的生成方法及装置、主题分布的获取方法及装置在审
申请号: | 201410738272.1 | 申请日: | 2014-12-05 |
公开(公告)号: | CN104536979A | 公开(公告)日: | 2015-04-22 |
发明(设计)人: | 石磊;蒋佳军 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 模型 生成 方法 装置 分布 获取 | ||
【技术领域】
本发明涉及计算机技术领域,尤其涉及一种主题模型的生成方法及装置、主题分布的获取方法及装置。
【背景技术】
在机器学习与自然语言处理领域中,常常需要从大量文本中,挖掘文本域词语之间所蕴含的潜在语义关系,即所主题。通过主题模型的学习和预测,可以获得文本的主题分布,用于实现文本聚类,以及应用于后续分类、检索、扩展、推荐等任务。
现有技术中,传统的主题模型,如概率潜语义分析(Probability Latent Semantic Analysis,PLSA)算法、非负矩阵分解(Non-negative Matrix Factorization,NMF)算法、隐含迪利克莱分布(Latent Dirichlet Allocation,LDA)算法,均采取词袋(bag of words)的概念,忽略了词条之间的关系,用多项分布(multinomial)描述每个词条的主题分布。然而,传统的主题模型都是针对长文本而提出,随着社交网络的兴起,互联网上产生了大量如微博、评论等短文本,由于短文本中包含的词条数目较少,受限于其共现词的低频性,利用传统的主题模型获得文本的主题分布的准确性和稳定性比较低。
【发明内容】
有鉴于此,本发明实施例提供了一种主题模型的生成方法及装置、主题分布的获取方法及装置,用以解决现有技术中利用传统的主题模型获得文本的主题分布的准确性和稳定性比较低的问题。
本发明实施例的一方面,提供一种主题模型的生成方法,所述主题模型包括主题分布的目标期望;包括:
获得训练样本中词对的第一后验概率参数;
依据所述第一后验概率参数,获得所述训练样本中词对的主题分布的候选期望;其中,所述词对包含所述训练样本中两个不同的词条;
依据所述训练样本中词对的主题分布的候选期望,获得主题模型的收敛度;
若所述主题模型的收敛度满足终止条件,将所述训练样本中词对的主题分布的候选期望作为所述主题分布的目标期望。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得训练样本中词对的第一后验概率参数,包括:
获得训练样本中词对的迪利克莱分布的先验概率参数;
依据随机数与所述迪利克莱分布的先验概率参数之和,获得所述训练样本中词对的迪利克莱分布的第一后验概率参数,以作为所述训练样本中词对的第一后验概率参数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得训练样本中词对的第一后验概率参数,包括:
依据服从泊松分布的所述训练样本中词对的出现次数,并利用如下公式,获得所述迪利克莱分布的第一后验概率参数以作为所述训练样本中词对的第一后验概率参数:
其中,ε表示所述训练样本中词对b的迪利克莱分布的先验概率参数;nb表示服从泊松分布的所述训练样本中词对b的出现次数;表示词对b的中间参数ρ*中第b行、第k列的M维向量中的第m个数值。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述依据所述第一后验概率参数,获得所述训练样本中词对的主题分布的候选期望,包括:
依据所述迪利克莱分布的第一后验概率参数并利用如下公式,获得所述训练样本中词对的主题分布的候选期望:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司;,未经百度在线网络技术(北京)有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410738272.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图片显示方法及终端
- 下一篇:一种基于查询状态机的XML流数据查询方法