[发明专利]一种融合图结构与节点关联的关键词提取方法有效

专利信息
申请号: 201711285868.0 申请日: 2017-12-07
公开(公告)号: CN108132927B 公开(公告)日: 2022-02-11
发明(设计)人: 马慧芳;王双;李苗;赵卫中;李宁 申请(专利权)人: 西北师范大学
主分类号: G06F40/279 分类号: G06F40/279;G06F40/30
代理公司: 兰州振华专利代理有限责任公司 62102 代理人: 张晋
地址: 730070 *** 国省代码: 甘肃;62
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 结构 节点 关联 关键词 提取 方法
【说明书】:

发明公开一种融合图结构与节点关联的关键词提取方法。本发明方法实现步骤如下:1)挖掘文档的频繁封闭词项集并生成强关联规则集合;2)将强关联规则集合中不重复的规则头与规则体作为节点,节点之间有边当且仅当彼此存在强关联规则,以关联规则的关联强度作为边权重构建文档的关联图;3)使用GSNA算法在关联图上随机游走,迭代计算每个节点的重要性分数,并对结果降序排序;4)对前若干个节点聚类,取出每个类的类中心点作为文档的关键提取结果。本发明方法能够在脱离外部语料库的情况下发现长文本的关键词,能够避免领域文集文本长短的影响,在更大范围检验一个词的重要性,进而能够提高领域关键词集的提取精度,还能适用于大规模领域文集的领域关键词集的提取。

技术领域

发明涉及一种新型的关键词提取方法,属于文字信息处理领域,具体地说是一种融合图结构与节点关联的关键词提取方法。

背景技术

随着网络技术的普及,网页新闻与各类电子文档快速地渗入人们的生活,用户如何从海量的文档中获取有价值的信息,文本关键词提取技术显得至关重要。关键词提取技术在网页检索、文本分类与主题词库构建等方面有广泛地应用,通过提取关键词,有助于用户迅速理解文档的核心内容。在大多数的文本挖掘任务中,关键词提取均表现为根据词项对文本内容的相关程度对其排序,所以很多单篇文档的关键词提取算法也随之而生。

长文本关键词提取技术依赖于词项所处的上下文语境,可采用监督学习或无监督学习进行关键词选取。使用监督学习算法提取关键词存在两种途径,分别为二分类法和特征选择。其中,二分类法即判断候选词是否为关键词,往往采用经典分类方法。特征选择方法关注于词项在文本的内部统计特征和在语料库的外部统计特征。无监督学习算法提取关键词技术存在三种方向,分别为基于潜在语义分析的关键词提取方法、基于图的关键词排序方法和基于主题的关键词聚类方法。潜在语义分析过度依赖于语料库进行学习训练,而现实情况下,语料库往往无法及时获取,这就为能够脱离语料库的基于图的关键词提取技术的发展提供了契机。基于图对关键词排序算法的基本来源为PageRank算法。GraphSum认为节点之间的关联性联系有强弱之分,负关联关系的节点之间投票时应降低相应的PageRank分数,这样使得节点得分更加合理。AttriRank指出计算节点的重要性时不仅要考虑图的结构,更要关注于节点属性之类的外部信息,并系统地提出了节点的13个属性用于衡量节点的相似度,使节点排名更具可靠性。

发明内容

本发明提出一种融合图结构与节点关联的关键词提取方法(Key WordsExtraction Method Combining Graph Structure with Nodes Association,GSNA),综合考虑节点的图结构属性、语义信息与节点间的关联性特征,能够在脱离外部语料库的情况下发现长文本的关键词。

为实现上述目的,本发明所述一种融合图结构与节点关联的关键词提取方法,实现步骤如下:

1)获取文本,进行文本预处理;

2)挖掘文档的频繁封闭项集并生成强关联规则集合;

3)将强关联规则集合中不重复的规则头与规则体作为节点,节点之间有边当且仅当彼此存在强关联规则,以关联规则的关联强度作为边权重构建文档的关联图;

4)使用GSNA算法在关联图上随机游走,迭代计算每个节点的重要性分数,并对结果降序排序;

5)对前若干个节点聚类,取出每个类的类中心点作为文档的关键提取结果。所述1)中文本预处理的方法,其步骤如下:

a.获取文本,文本由若干数目的句子组成;

b.去除文本中所有的目录、标题、图、表,只留下文本信息;

c.对文本进行分词,对于英文文本,基于简单的空格进行分词;对于中文文本,使用常用的分词算法进行分词;

d.将文本进行停用词过滤;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北师范大学,未经西北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711285868.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top