[发明专利]关键词提取方法、装置、计算机设备及可读存储介质在审
申请号: | 202110603423.2 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113204965A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 赵盟盟;王磊;杨怡;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/126 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518057 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 提取 方法 装置 计算机 设备 可读 存储 介质 | ||
本申请属于自然语言处理技术领域,提供了一种关键词提取方法、装置、计算机设备及可读存储介质,该方法包括:获取待提取文本,分别对待提取文本的各个词进行mask,得到各个被mask的词对应的mask文本;采用训练好的BERT模型分别提取待提取文本对应的第一词向量以及各个mask文本对应的第二词向量;分别对第一词向量以及各个第二词向量进行降噪处理,得到降噪第一词向量以及各个降噪第二词向量;根据第一词向量以及各个第二词向量,结合降噪第一词向量以及各个降噪第二词向量,确定各个被mask的词在待提取文本中的重要程度;根据各个被mask的词的重要程度从待提取文本中提取关键词。本申请能够提升关键词提取的精确性。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种关键词提取方法、装置、计算机设备及可读存储介质。
背景技术
文本关键词提取是自然语言处理领域中的一大重要应用,主要用于主题分析、新闻分类等领域,通过文本关键词提取,可以对新闻进行快速分类或是对文章进行简单标签化。
相关技术中,TFIDF文本关键词提取方法因实现简单、相对容易理解等特点被广泛应用。TFIDF方法实质是利用各个单词的词频TF和逆文档频率IDF二者的乘积来衡量单词的重要程度,从而达到关键词提取的目的。其中,IDF值实质上是一种试图抑制噪音的加权,认为文本频率小的单词就重要程度越大,文本频率大的单词重要程度越小,其准确率依赖于精确的语料库,如果语料库中某类文本的频率较高,那么该类文本的关键词的IDF值也就会偏小;且仅仅从词频TF出发计算重要程度,这与实际生活中我们更关注主语、谓语、宾语等想法相悖。故此,TFIDF方法难以提取出反映文本语义的关键词,精确性不高。
发明内容
本申请的主要目的在于提供一种关键词提取方法、装置、计算机设备及可读存储介质,旨在解决相关技术中提取关键词的方式精确性不高的技术问题。
第一方面,本申请提供了一种关键词提取方法,所述方法包括:
获取待提取文本,分别对所述待提取文本的各个词进行mask,得到各个被mask的词对应的mask文本;
采用训练好的BERT模型分别提取所述待提取文本对应的第一词向量以及各个所述mask文本对应的第二词向量;
分别对所述第一词向量以及各个所述第二词向量进行降噪处理,得到降噪第一词向量以及各个降噪第二词向量;
根据所述第一词向量以及各个所述第二词向量,结合所述降噪第一词向量以及各个所述降噪第二词向量,确定各个所述被mask的词在所述待提取文本中的重要程度;
根据各个所述被mask的词的所述重要程度从所述待提取文本中提取关键词。
第二方面,本申请还提供了一种关键词提取装置,所述装置包括:
mask模块,用于获取待提取文本,分别对所述待提取文本的各个词进行mask,得到各个被mask的词对应的mask文本;
词向量提取模块,用于采用训练好的BERT模型分别提取所述待提取文本对应的第一词向量以及各个所述mask文本对应的第二词向量;
降噪模块,用于分别对所述第一词向量以及各个所述第二词向量进行降噪处理,得到降噪第一词向量以及各个降噪第二词向量;
确定模块,用于根据所述第一词向量以及各个所述第二词向量,结合所述降噪第一词向量以及各个所述降噪第二词向量,确定各个所述被mask的词在所述待提取文本中的重要程度;
关键词提取模块,用于根据各个所述被mask的词的所述重要程度从所述待提取文本中提取关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110603423.2/2.html,转载请声明来源钻瓜专利网。