[发明专利]关键词提取方法和装置有效
申请号: | 201611039501.6 | 申请日: | 2016-11-10 |
公开(公告)号: | CN108073568B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 鲍晓 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/216;G06F40/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 朱雅男 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 提取 方法 装置 | ||
本发明公开了一种关键词提取方法和装置,属于信息处理技术领域。所述方法包括:从目标文本中提取候选关键词;对于每一个候选关键词,获取候选关键词对应的有效特征,有效特征是指对关键词判定具有区分功能的特征;根据候选关键词对应的有效特征和各项有效特征分别对应的加权系数计算候选关键词属于关键词的概率,并根据概率确定是否将候选关键词作为目标文本的关键词。本发明使得特征的使用无需通过人工制定的规则来实现,从而解决了现有技术存在的问题,减小了关键词提取的复杂度,且提高了关键词提取的准确率。
技术领域
本发明涉及信息处理技术领域,特别涉及一种关键词提取方法和装置。
背景技术
关键词提取(或称为“关键词抽取”,keywords extraction)技术是指从文本中提取关键词的技术。关键词提取技术在许多业务领域得到了广泛应用,例如资讯业务、搜索业务、广告业务等。
一些主流的关键词提取技术通常基于词频特征提取关键词。例如,基于TF-IDF(Term Frequency–Inverse Document Frequency,词频-反文档频率)算法的关键词提取技术、基于TextRank算法的关键词提取技术。在实际应用中发现,仅考虑词频特征提取得到的关键词准确率并不高,还应当考虑字词在文本中出现的位置、字词与文本主题之间相关性、字词的词性等其它特征。
在现有技术中,提供了一种基于规则的多特征融合的关键词提取方法,其具体流程如下:对目标文本进行分词处理,得到多个字词;采用TF-IDF算法或者TextRank算法计算各个字词的关键词评分;选取关键词评分较高的若干个字词作为候选关键词;而后根据一些由人工制定的规则,从候选关键词中选取关键词。例如,过滤词频低的候选关键词,召回词频高的候选关键词;又例如,过滤与文本主题无关的候选关键词,召回与文本主题相关的候选关键词;再例如,召回在文本的标题中出现且被书名号括出的候选关键词,等等。根据人工制定的规则对候选关键词进行一系列的过滤和召回之后,最终剩下的候选关键词即作为文本的关键词。
在现有技术中,虽然考虑到了关键词提取需要综合考虑多方面的特征,但是由于对候选关键词进行过滤和召回的规则是由人工制定的,如果考虑的特征较多,则需要制定大量的规则,这就导致关键词提取的过程过于复杂。并且,人工制定的规则难免存在一些问题,例如规则不够合理、准确,这也导致关键词提取的准确率并不高。
发明内容
为了解决现有技术中关键词提取的过程过于复杂且准确率不高的问题,本发明实施例提供了一种关键词提取方法和装置。所述技术方案如下:
第一方面,提供了一种关键词提取方法,所述方法包括:
从目标文本中提取候选关键词;
对于每一个候选关键词,获取所述候选关键词对应的有效特征,所述有效特征是指对关键词判定具有区分功能的特征;
根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词。
第二方面,提供了一种关键词提取装置,所述装置包括:
提取模块,用于从目标文本中提取候选关键词;
第一获取模块,用于对于每一个候选关键词,获取所述候选关键词对应的有效特征,所述有效特征是指对关键词判定具有区分功能的特征;
第一确定模块,用于根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词。
本发明实施例提供的技术方案带来的有益效果包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611039501.6/2.html,转载请声明来源钻瓜专利网。