[发明专利]一种基于变分推断的学术研究热点关键词提取方法有效
申请号: | 201710112755.4 | 申请日: | 2017-02-28 |
公开(公告)号: | CN106897436B | 公开(公告)日: | 2018-08-07 |
发明(设计)人: | 马占宇;陈光启;肖波;司中威 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种基于变分推断的学术研究热点关键词提取方法。该系统包括如下步骤:文本预处理步骤,将文本分割清洗成为词语的集合;文本表示步骤,通过TF‑IDF特征加权将词语组成的文本映射到向量空间中成为词向量;层次聚类步骤,使用高斯混合模型表示数据的分布,并通过变分推断方法估计混合模型的参数,将模型划分为几个高斯模型的混合,实现聚类的目的,再对每个类的样本进行高斯混合模型的变分推断,实现层次聚类;结果生成步骤:将层次聚类得到的每个类作为一个话题,类中心里权值最高的词语作为该类的关键词,按照层次聚类的结构生成话题树。利用本发明实施例,能够高效、准确地提取一定时间内学术研究的热点关键词,作为一个合理的参考,具有实用价值。 | ||
搜索关键词: | 一种 基于 推断 学术研究 热点 关键词 提取 方法 | ||
【主权项】:
1.一种基于变分推断的学术研究热点提取方法,其特征在于以下步骤:步骤一.文本预处理:根据论文文本的特点,将标题、作者和摘要提取出,并对摘要进行分词、大小写统一、去标点、词形还原、去除停用词的预处理;步骤二.特征提取:为了有效提取出文本的特征,本文使用TF‑IDF(term frequency‑inverse document frequency)方法对文本中的词语进行加权;步骤三.层次聚类步骤:使用高斯混合模型(GMM‑Gaussian Mixture Model)来描述文本的分布,通过变分推断(Variational Inference)的方式,估计高斯混合模型的参数,完成聚类;通过逐级对每次的聚类分别进行高斯混合模型的变分推断,实现层次聚类;具体过程如下:1)通过高斯混合模型表示数据的分布:p(X,Z,μ,Λ,π)=p(X|Z,μ,Λ)p(μ|Λ)p(Λ)p(Z|π)p(π)其中,模型的条件概率分布为:
均值μ与精度矩阵Λ的先验分布为:
分配变量Z与混合系数π的分布为:![]()
2)通过变分推断估计每个样本的分配变量zj,高斯混合模型的有效混合分量的数量P,与每个混合分量均值μi,将每个有效混合分量作为一个类,即一个话题,其均值μi作为类中心;3)将2)得到的类作为P个新的数据集合{M1,M2,...,MP},对每个新的数据集合Mi,重复1)和2)步骤,估计出类Mi中有效混合分量数量Si,每个有效混合分量均为Mi的子类,即Mi的二级话题;以及估计每个有效混合分量均值μij,完成层次聚类,根据需求,可再将子类依上述步骤继续聚类;步骤四.结果生成:将步骤三2)中得到的每一类的均值μi取出,依照权值大小,将μi中的词汇排序,取出权值最大的三个词作为该类一级话题的关键词;对于步骤三3)中生成的每一个子类,在其均值μij中取出前三个权重最大且未出现在一级话题中的词语,作为二级话题的关键词;将每个一级话题及二级话题的关键词按照树的结构排布,生成话题树,完成对学术文章的研究热点的提取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710112755.4/,转载请声明来源钻瓜专利网。
- 上一篇:终端控制方法及装置
- 下一篇:一种知识系统的高阶规则多分类方法及其系统