[发明专利]一种子话题挖掘方法有效
申请号: | 201611024146.5 | 申请日: | 2016-11-17 |
公开(公告)号: | CN106844416B | 公开(公告)日: | 2019-11-29 |
发明(设计)人: | 李静远;丘志杰;刘悦;程学旗;王凤 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 11280 北京泛华伟业知识产权代理有限公司 | 代理人: | 王勇;叶北琨<国际申请>=<国际公布>= |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。 | ||
搜索关键词: | 种子 话题 挖掘 方法 | ||
【主权项】:
1.一种子话题挖掘方法,包括下列步骤:/n1)对语料库中每篇文档的每个词语的主题值进行初始化,其中,主题值的取值范围是K+1种取值组成的集合,其中1种取值对应于背景模块,其余K种取值分别对应于所要细分的K个子话题;/n2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;/n3)重复执行步骤2),直至满足停止迭代的条件,停止迭代后根据当前的各篇文档的各个词语的主题值得出子话题。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611024146.5/,转载请声明来源钻瓜专利网。