[发明专利]一种基于N-gram增量主题模型的语义挖掘方法无效
申请号: | 201110201966.8 | 申请日: | 2011-07-19 |
公开(公告)号: | CN102243625A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | 王晗;徐毅;郎波;李未 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 李新华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于N-gram增量主题模型的语义挖掘方法:(1)将Author-Conference主题模型进行扩展:扩展单词空间,从Unigram到N-gram;(2)对于当前输入数据,根据之前训练模型中后验概率的线性加权计算当前模型中先验概率的参数;(3)采用吉布斯采样方法计算模型对当前数据的后验概率值;(4)对于新的输入数据流,重复步骤(2)、(3)增量训练模型。本发明将N-gram引入到主题模型中,根据N-gram包含的语义特性,提高了主题模型对科技文献建模的性能;采用非对称先验概率记录历史数据的主题分布,从而增量式地训练模型,提高了方法的效率。 | ||
搜索关键词: | 一种 基于 gram 增量 主题 模型 语义 挖掘 方法 | ||
【主权项】:
一种基于N‑gram增量主题模型的语义挖掘方法,其特征在于步骤如下:(1)将Author‑Conference主题模型(Author‑Conference‑Topic Model,ACT)进行扩展:扩展单词空间,从一元语法元素Unigram到N元语法元素N‑gram;(2)对于当前输入数据,若为第一个输入数据流,则根据给定的常数值初始化当前模型的先验概率参数,否则,根据之前训练模型中后验概率的线性加权计算当前模型中先验概率的参数;(3)采用吉布斯采样方法计算模型对当前数据的后验概率值;(4)对于新的输入数据流,重复步骤(2)到(3)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110201966.8/,转载请声明来源钻瓜专利网。
- 上一篇:厕纸架
- 下一篇:单双层两用全自动结鞭机