[发明专利]一种基于复杂网络的博客关键词提取方法在审
申请号: | 201510368622.4 | 申请日: | 2015-06-29 |
公开(公告)号: | CN104933032A | 公开(公告)日: | 2015-09-23 |
发明(设计)人: | 屈鸿;王晓斌;吴诗雯;冯旻昱;冯鲁桥 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 杨保刚;徐金琼 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 复杂 网络 博客 关键词 提取 方法 | ||
技术领域
一种基于复杂网络的博客关键词提取方法,利用复杂网络的拓扑特性中的节点介数、节点的度,提出节点综合重要性计算公式进行博客文本关键词的提取,涉及复杂网络建模,复杂网络拓扑特性,机器学习等领域,具体涉及基于复杂网络建模技术领域。
背景技术
随着信息技术的飞速发展和互联网的普及,博客的文本数据库呈现出几何级数的增长。如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。关键词作为文章主题和作者思想的体现能够有效解决这个问题,然而除学术论文包含关键字外,大量的文档没有关键字,尤其是互联网上的众多网页。语言专家手工提取关键字,其准确率较高,但对海量文档信息手工提取是一个繁重并不可行的方法。如果能采用人工智能的方法提取关键字,会大大地提高效率。因此,运用何种方法进行关键词自动提取的研究具有重要的现实意义。
关键词提取算法可分为两类:基于训练集的关键词提取策略和不需要训练集的关键字提取策略。基于训练集的方法将关键词提取视为分类问题,通过将文档中出现的词语划分到关键字类或非关键字类,再从关键字类中选择若干个词语作为关键字,该类算法由Peter.D.Turney首次提出,其技术己日趋成熟。不需要训练集的算法,可分为以下四类:基于统计的方法,如频率统计;基于词语图的方法,如KeyGraph;基于词语网络的方法,如中介性指标(BC,Betweenness Centrality);基于SWN的方法;上述四种方法都是建立在词频基础上。基于统计的方法简单快速,能够提取高频词语,却忽略对文档具有重要意义但出现频率不高的词语,因此提取的关键字具有片面性传统的关键词提取算法只注重文档表层统计特性(如词频、词句位置、词语长度等),忽略文档的语义结构和结构信息,导致关键词语义和结构信息的缺失。
随着网络科学已被越来越多的人了解与熟知,并且已经成为许多的科学家进行跨领域研究的工具,其中运用网络科学进行自然语言分析也是研究者所热衷的课题。其中运用复杂网络理论对实际网络进行建模进而根据网络拓扑特性进行具 体问题的分析已成为研究者进行实际问题的探索中有力的方式。现有关键词提取方法的不足之处在于:在分析已有基于词语网络的关键字提取算法的基础上,所提取的关键字不包括高频单词和短语,而且对文档中心内容贡献大但出现频率不高的单词和短语提取不到。
发明内容
本发明针对现有技术的不足之处提供了一种基于复杂网络的博客关键词提取方法,可以提取包括高频词汇和短语的关键字,而且对提取文档中心内容贡献大但出现频率不高的单词短语有较好的效果。
为了实现上述目的,本发明采用的技术方案为:
一种基于复杂网络的博客关键词提取方法,其特征在于,如下步骤:
(1)通过爬虫获取博客文本;
(2)对爬虫获取的博客文本进行预处理,即得到已断句、分词和无停用词的格式规范的博客文本;
(3)对博客文本进行预处理后,将博客文本中单词之间的相邻关系对应于博客文本网络节点之间的连接关系,根据博客文本中单词之间的相邻关系进行网络模型构建;
(4)根据博客文本中单词之间的相邻关系进行网络模型构建后,运用节点拓扑性质制定节点重要性指标计算公式,节点的重要性是指节点的度和节点的介数;
(5)根据节点重要性指标计算公式提取对博客文本进行预处理后的博客文本中的关键词;
(6)输出提取的对博客文本进行预处理后的博客文本中的关键词。
进一步,所述步骤(2)中,对爬虫获取的博客文本进行预处理的具体步骤如下:
(21)文本规范化,即将其他格式的博客文本转化成标准的txt格式进行关键词的提取;
(22)断句、分词处理,即根据博客文本中标点符号以及单词与单词之间的空格进行单词与短语的分割;
(23)大小写变换,即将断句、分词处理后的博客文本中的大写字母全部改 为小写字母;
(24)词态变换,即将大小写变换后的博客文本中存在英文单词的,将英文单词统一变换成该单词的原型模式;
(25)去停用词,即预先收集好停用词,实验中去除这些停用词,减少无关词的干扰,提高关键词提取的准确率。
进一步,所述步骤(3)中,根据博客文本中单词之间的相邻关系进行网络模型构建的具体步骤如下:
(31)对经过预处理后的博客文本的单词进行标号,标号对应于构建的博客文本中单词网络的节点编号,网络的节点编号是根据阿拉伯数字顺序增长进行标记,同一个单词有且仅有一个标号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510368622.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网络信息浏览方法及网络信息浏览装置
- 下一篇:印前校验传版方法和设备