[发明专利]一种子话题挖掘方法有效

专利信息
申请号: 201611024146.5 申请日: 2016-11-17
公开(公告)号: CN106844416B 公开(公告)日: 2019-11-29
发明(设计)人: 李静远;丘志杰;刘悦;程学旗;王凤 申请(专利权)人: 中国科学院计算技术研究所
主分类号: G06F16/332 分类号: G06F16/332;G06F17/27
代理公司: 11280 北京泛华伟业知识产权代理有限公司 代理人: 王勇;叶北琨<国际申请>=<国际公布>=
地址: 100190 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 种子 话题 挖掘 方法
【权利要求书】:

1.一种子话题挖掘方法,包括下列步骤:

1)对语料库中每篇文档的每个词语的主题值进行初始化,其中,主题值的取值范围是K+1种取值组成的集合,其中1种取值对应于背景模块,其余K种取值分别对应于所要细分的K个子话题;

2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;

3)重复执行步骤2),直至满足停止迭代的条件,停止迭代后根据当前的各篇文档的各个词语的主题值得出子话题。

2.根据权利要求1所述的子话题挖掘方法,其特征在于,所述步骤2)包括下列子步骤:

21)选取一篇文档;

22)从当前文档中选取一个词语;

23)对于当前词语,基于去除这个词语自身的主题信息后的其它词语的当前主题值赋值信息,计算该词语来自各个主题的概率;所述主题包括K各子话题和1个背景模块;

24)依据所计算出的概率进行吉布斯采样,依据采样结果给当前词语重新分配主题值,然后返回步骤22),处理下一个词语,直至当前文档处理完毕;

25)如果当前文档处理完毕,则返回步骤21),开始处理下一篇文档,直至所有文档处理完毕。

3.根据权利要求2所述的子话题挖掘方法,其特征在于,所述步骤23)中,当前词语属于各个子话题的概率值按照下述公式计算:

当前词语属于背景模块的概率值按照下述公式计算:

其中,zi代表当前词语的主题值,k代表子话题的主题值,b代表背景模块的主题值,下标i表示当前词语的编号,表示除编号为i的词语外的其它词语组成的主题值向量,代表词语组成的向量,代表文档m中除了i以外的其它词语组成的集合中,主题为k的词语的总个数,代表语料库中除了i以外的其它词语组成的集合中,主题为k的词语t的总个数,α代表主题超参数,β代表主题词语分布的超参数,φt代表背景模块的词语分布向量中词语t对应的概率,λ代表背景模块与主题模块的权重调节因子,V表示从语料库统计得到的词频向量列表的维数。

4.根据权利要求1所述的子话题挖掘方法,其特征在于,所述步骤3)中,所述停止迭代的条件是迭代次数达到预设的数值。

5.根据权利要求1所述的子话题挖掘方法,其特征在于,所述步骤2)和步骤3)之间还执行步骤:

30)根据语料库中各个词语当前的主题值,在排除掉属于背景模块的词语后,计算主题-词语分布矩阵;

所述步骤3)中,所述停止迭代的条件是:对比当前主题-词语分布矩阵和上一轮迭代计算出的主题-词语分布矩阵,如果变化量小于预设的阈值,则认为满足停止迭代的条件,否则认为不满足停止迭代的条件。

6.根据权利要求5所述的子话题挖掘方法,其特征在于,所述步骤3)中,当满足停止迭代的条件时,输出当前的主题-词语分布矩阵,根据这个矩阵获得K个子话题及其对应的关键词。

7.根据权利要求1所述的子话题挖掘方法,其特征在于,所述步骤1)中,所述初始化是:对于每篇文档的每个词语,在对应于K个子话题和1个背景模块的K+1个选项中,以掷骰子的方式为其分配主题值。

8.根据权利要求1所述的子话题挖掘方法,其特征在于,所述步骤2)中,所述背景模块中的词语分布向量通过统计全局语料库的各个词语的出现次数得出。

9.根据权利要求5所述的子话题挖掘方法,其特征在于,所述步骤30)中,对于任一词语,当该词语属于背景模块的概率超过预设的阈值时,认定该词语属于背景模块,在计算主题-词语分布矩阵时排除掉该词语。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611024146.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top