[发明专利]一种抽取关键词的方法及装置有效
申请号: | 201210212574.6 | 申请日: | 2012-06-21 |
公开(公告)号: | CN102779119A | 公开(公告)日: | 2012-11-14 |
发明(设计)人: | 翟周伟 | 申请(专利权)人: | 盘古文化传播有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 100162 北京市大兴区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抽取 关键词 方法 装置 | ||
技术领域
本发明涉及自然语言处理领域,尤其涉及一种抽取关键词的方法及装置。
背景技术
目前,通常根据统计学方法对文本进行关键词抽取时,根据对关键词有重要影响的因子进行统计计算,然后对统计结果进行排序并确定候选关键词集合。
例如,可以采用包括词频以及TF-IDF(term frequency-inverse document frequency,词频-倒文档频率)等特征统计信息。采用基于词频抽取关键词时,根据某个词的词频越高,则该词是关键词的概率越大的规则进行抽取关键词。首先统计文本中各个词的词频,然后对统计的词频进行排序,确定词频最高的若干个词为该文本的关键词。基于TF-IDF抽取关键词时,通过统计计算每一个词的TF-IDF来确定关键词。TF-IDF指某个词或短语在一篇文章中出现的频率高,并且在其他文章中出现的频率低,则认为该词或者短语具有很好的类别区分能力,则确定此词或者短语为关键词。
然而,采用现有技术抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低。
发明内容
本发明的实施例提供一种抽取关键词的方法及装置,可以提高确定的关键词的准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种抽取关键词的方法,包括:
获取文本经过词法分析以及预处理后的词语集合;
根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
根据所述各个词语的综合测度确定关键词。
一种抽取关键词的装置,包括:
获取单元,用于获取文本经过词法分析以及预处理后的词语集合;
第一处理单元,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;
第二处理单元,用于根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;
关键词确定单元,用于根据所述各个词语的综合测度确定关键词。
本发明实施例提供一种抽取关键词的方法及装置,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。与现有技术中抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低相比,本发明实施例提供的方法根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,从而可以提高确定的关键词的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种抽取关键词的方法的流程图;
图2为本发明实施例2提供的另一种抽取关键词的方法的流程图;
图3为本发明实施例2提供的语义相似度图示意图;
图4为本发明实施例2提供的区域位置因子权值表;
图5为本发明实施例3提供的一种抽取关键词的装置的框图;
图6为本发明实施例3提供的另一种抽取关键词的装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种抽取关键词的方法,如图1所示,该方法包括:
步骤1 01,获取文本经过词法分析以及预处理后的词语集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盘古文化传播有限公司,未经盘古文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210212574.6/2.html,转载请声明来源钻瓜专利网。