[发明专利]关键词的确定方法和相关设备在审
申请号: | 201910863849.4 | 申请日: | 2019-09-12 |
公开(公告)号: | CN112487132A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 戴泽辉 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/35;G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 钱娜 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 确定 方法 相关 设备 | ||
本发明提供了一种关键词的确定方法,该方法可以获得多个不同聚类的文档集合,并按照多种不同的切分长度,对任一聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语,通过计算得到各个词语的出现频率得分、长度权重得分和综合得分,并将综合得分排序在前的预设数量的词语确定为任一聚类的文档集合的关键词。本发明对文档进行词语切分可以得到多种不同字数长度的词语,对不同字数长度的词语进行评分,且评分时使用长度权重对词语得分进行修正,使长度更长的词语评分更高,所确定的关键词更加客观地反映文本内容,进而提高关键词确定的准确性。另外本发明还提供了关键词的确定设备,以保证上述方法在实际中的应用及实现。
技术领域
本发明涉及自然语言处理技术领域,更具体的,是一种关键词的确定方法和相关设备。
背景技术
现如今,信息的表达方式随着信息时代的发展而日益多样,其中利用文本的方式可以更为直观地表达信息。对于文本而言,关键词是文本主题信息的提炼,可以高度概括文本的主要内容,能够帮助用户快速了解文本内容。由于文本信息的数量过于庞大,故关键词确定方法显得尤为重要。
目前的一种关键词确定方法是,首先使用预先设置的词典对文本进行分词操作,然后基于分词结果使用关键词确定算法如基于词频-逆文档频率(tf-idf)的统计算法、文本排序(textrank)算法、词语熵算法等,在分词结果中确定关键词。但是,上述关键词确定方法所得到的关键词通常在2-3字,无法准确地确定出的关键词。
发明内容
为实现上述目的,本发明实施例提供如下技术方案:
第一方面,本发明提供了一种关键词的确定方法,包括:
获得多个不同聚类的文档集合;
将任一聚类的文档集合作为当前聚类的文档集合,执行下述关键词确定操作:
按照多种不同的切分长度,对所述当前聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;
计算各个词语在所述多个不同聚类的文档集合中的出现频率得分;
基于词语的字数长度,计算各个词语的长度权重得分;其中所述长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;
基于出现频率得分以及长度权重得分计算各个词语的综合得分;
根据各个词语的综合得分确定所述当前聚类的文档集合的关键词。
第二方面,本发明提供了一种关键词的确定装置,包括:
获取单元,用于获得多个不同聚类的文档集合;
执行单元,用于将任一聚类的文档集合作为当前聚类的文档集合,执行下述关键词确定操作:
按照多种不同的切分长度,对所述当前聚类的文档集合包含的各个文档进行词语切分,以得到多种不同字数长度的词语;
计算各个词语在所述多个不同聚类的文档集合中的出现频率得分;
基于词语的字数长度,计算各个词语的长度权重得分;其中所述长度权重得分用于表示词语的字数长度对于词语被确定为关键词的影响程度;
基于出现频率得分以及长度权重得分计算各个词语的综合得分;
将综合得分排序在前的预设数量的词语确定为所述当前聚类的文档集合的关键词。
第三方面,本发明提供了一种存储介质,其上存储有程序,所述程序被处理器执行时实现上述的关键词的确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910863849.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电连接器
- 下一篇:一种电气设备及控制方法