[发明专利]基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法有效
申请号: | 201611203288.8 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106778880B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 刘杰;翟羽佳;王嫄 | 申请(专利权)人: | 南开大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/16;G06Q50/00 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 深度 玻尔兹曼机 话题 表示 主题 发现 方法 | ||
1.基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法,包括如下步骤:
步骤1)通过微博数据构建话题标签的两种模态表示
步骤1.1)通过话题标签的共现关系构建话题标签的共现关系表示;
通过对微博数据进行统计,获得话题标签之间的共现关系矩阵,话题标签由该矩阵的行来表示;
步骤1.2)通过话题标签所在的微博构建向量空间表示
用包含话题标签话题的微博来建立话题标签的向量空间表示;令语料中微博包含的所有词语集合为字典K,令话题标签i的向量空间表示为T,T是一个|K|维的向量,该向量的每一维的值是包含有该话题标签的微博中这一维词语出现的总次数;
步骤2)对步骤1)中的两种模态表示分别训练深度玻尔兹曼机
采用深度玻尔兹曼机对两种模态分别进行建模;由于高斯玻尔兹曼机更适用于真值输入,因此对于话题标签的共现关系表示采用深度高斯玻尔兹曼机进行建模;而ReplicatedSoftmax模型对稀疏的向量空间表示有更好的建模性能,因此对于向量空间表示采用深度的Replicated Softmax的玻尔兹曼机进行建模;
步骤3)以步骤2)中两种模态的训练结果作为输入进行多模态联合学习;
多模态的玻尔兹曼机模型由两个玻尔兹曼机构建,一个是以共现关系表示作为输入的高斯玻尔兹曼机,它由一层可见层和两层隐藏层组成;另一个是以向量空间表示为输入的Replicated Softmax玻尔兹曼机,同样由一层可见层和两层隐藏层组成;将两个玻尔兹曼机的第二个隐藏层作为另外一个隐藏层的输入,得到的输出就是最终的联合表达;
上述模型的最大似然学习是难以处理的,因此利用平常场推导来估计数据期望,及利用基于MCMC的随机估计过程来估计模型的期望统计以做出对模型的近似学习;
通过对多模态的玻尔兹曼机模型进行学习,学习到参数拟合训练数据的模型,进而得到话题标签的多模态表达;
步骤4)利用经典算法Kmeans对多模态联合学习出的话题标签表达进行聚类,将聚类得出的每个类别的簇心作为主题;
步骤5)对于一个带话题标签的微博输入,利用步骤3)学习到的多模态玻尔兹曼机模型对它的话题标签生成多模态表达,通过计算话题标签的多模态表达与步骤4)中簇心的多模态表达的距离,找到距离最近的簇心即是该微博的主题;
步骤6)对于不带话题标签的微博,将微博的向量空间表达输入到步骤3)学习到的多模态玻尔兹曼机模型中,通过吉布斯采样的方式从条件分布中对隐藏的模态进行采样,从而得到相应的共现关系表示,通过计算现有共现关系表示与采样出的共现关系表示的相似度,将相似度最高的共现关系表示对应的话题标签作为该微博的话题标签;然后类似步骤5)通过求最近簇心的方式,得到该微博的主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611203288.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人物关系分类方法及装置
- 下一篇:数字印花方法及装置