[发明专利]文本关键词提取方法、装置、设备及存储介质有效
申请号: | 202110068459.5 | 申请日: | 2021-01-19 |
公开(公告)号: | CN112395395B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 杨修远 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06F40/126 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 曹素云;张超艳 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 关键词 提取 方法 装置 设备 存储 介质 | ||
1.一种文本关键词提取方法,其特征在于,所述方法包括:
对文本进行新词查询,将所述新词进行归集以生成新词候选词表;包括:从文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表;从第一候选词表中挑选出新词进行保留,所述新词为包含特殊领域的特定字的词;采用jieba分词器和pyltp分词器对文本进行分词,得到的两种分词词表,根据两种分词词表依次对不含新词的第一候选词表进行清洗,清洗掉属于所述分词词表的候选词;根据统计特征对采用分词词表清洗后的第一候选词表中的词进行清洗;将根据统计特征清洗后词表与新词合并,得到所述新词候选词表;
将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表;基于所述文本词语列表,采用TF-IDF,TextRank和主题模型三种关键词提取方法分别提取关键词,其中,采用TF-IDF提取关键词时,根据词在文本中的出现位置、字体大小以及是否属于所述新词候选词表中的新词给出权重;
对三种方法提取得到的关键词去重复,整合得到第一关键词集合,对第一关键词集合中位置连续的关键词以文本最小单元进行最大长度拼接,根据词性统计特征对拼接后的关键词进行清洗,得到所述文本关键词集合。
2.根据权利要求1所述的文本关键词提取方法,其特征在于,所述的从文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表的步骤中,包括:
选取文本中预设长度的片段作为潜在词,根据所述潜在词构造前缀树,通过遍历前缀树,得到候选词、以及候选词的频数和候选词的信息熵;
根据所述信息熵,计算得到候选词的自由运用程度;
根据所述频数计算PMI,根据PMI,计算得到候选词的内部凝固程度;
筛选出自由运用程度和内部凝固程度符合预设阈值的候选词,生成所述第一候选词表。
3.根据权利要求2所述的文本关键词提取方法,其特征在于,所述根据所述信息熵,计算得到词的自由运用程度的计算公式为:
其中,表示长度为m的字符串的自由运用程度;表示长度为m的字符串;分别表示长度m字符串的左邻字信息熵和右邻字信息熵。
4.根据权利要求1所述的文本关键词提取方法,其特征在于,采用TF-IDF关键词提取方法提取关键词的步骤中,包括:
计算词的TF和IDF;
根据所述词在文本中的出现位置、字体大小、以及是否属于所述新词候选词表,给出所述词的权重weight;
根据I=TF*IDF*weight,计算得到所述词在所述文本中的重要程度I;
根据词的重要程度提取得到关键词。
5.一种文本关键词提取装置,其特征在于,包括:
新词查询单元,用于对文本进行新词查询,将所述新词进行归集以生成新词候选词表;包括:从文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表;从第一候选词表中挑选出新词进行保留,其中,所述新词为包含特殊领域的特定字的词;依次根据分词词表和统计特征对不含所述新词的第一候选词表中的词进行清洗;将清洗后词表与新词合并得到所述新词候选词表;其中,所述分词词表通过分词器对所述文本进行分词得到;
提取单元,用于将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表,并基于所述文本词语列表,采用TF-IDF,TextRank和主题模型三种关键词提取方法分别提取关键词,其中,采用TF-IDF提取关键词时,根据词在文本中的出现位置、字体大小以及是否属于所述新词候选词表给出权重;
整合单元,用于对三种方法提取得到的关键词去重复,整合得到第一关键词集合,对第一关键词集合中位置连续的关键词进行最大长度拼接,根据词性统计特征对拼接后的关键词进行清洗,得到所述文本的关键词集合。
6.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的文本关键词提取方法中的各步骤。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的文本关键词提取方法中的各步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110068459.5/1.html,转载请声明来源钻瓜专利网。