[发明专利]一种基于改进TF‑IDF关键词提取算法在审
申请号: | 201710369600.9 | 申请日: | 2017-05-23 |
公开(公告)号: | CN107145476A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 金彪;方敏霞;沙晋明;熊金波;李璇;林劼 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/27 |
代理公司: | 福州君诚知识产权代理有限公司35211 | 代理人: | 戴雨君 |
地址: | 350108 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 tf idf 关键词 提取 算法 | ||
技术领域
本发明涉及一种基于改进TF-IDF关键词提取算法。
背景技术
目前在基于改进TF-IDF关键词提取算法相关方法中,主要缺点表现为:单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词语的词性信息,属性为名词的词与属性为助词等的词,都被赋予了相同的重要性,这显然是不合理的。其他相关技术中,提取关键词的准确率相对提高了,但是在空间的复杂度上也提高了,现实要求中得不到满足。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于改进TF-IDF关键词提取算法。
本发明采用的技术方案是:
一种基于改进TF-IDF关键词提取算法,其包括以下步骤:
S1:将文本的输入形式统一格式化;
S2:将文本标准格式化,对Stanford NLP加载属性Properties配置文件;
S3:在Properties配置文件中根据定义的句子分隔符号,得到文本中的所有句子的集合Sentences;
S4:每次从集合Sentences中取出一条句子;
S5:获取当前的句子中所有的词语集合Tokens;
S6:每次从集合Tokens中取出一个token;
S7:得到当前token的字/词语和词性,并赋予不同的词性以不同的词性权值;
S8:计算当前句子中字/词语的总数及其位置百分比;
S9:在前面的操作中,获取了文本中所有的字/词语集合Words;
S10:每次从集合Words取出一个word;
S11:计算当前word的TF以及IDF;
S12:得到所有word的词性权值、位置权值、TF、IDF后,计算词语的权重W=TF*IDF+词性权值+位置权值,选取词语的权重W权值由大到小前5个word作为关键词输出。
进一步地,所述步骤S1中统一格式化所包括的参数分别为标题、标签、摘要以及正文;若是对应的参数不存在则输入“”。
所述步骤S2中,文本标准格式化首先设定管道中包含的annotators时分别选择分词、分隔、词性标注、识别命名实体4个annotators,这四个annotators是对本发明进行文本处理所必须的;其次,加载各个annotator所需要的包以及设置对应的参数。
进一步地,所述步骤S8中计算当前句子中字/词语的总数时除去不能成为关键词的词性的词语。
进一步地,所述步骤S11,IDF在传统的算法中主要是通过包含了该词语的文档的数量和包含该词语的文档的总数量来比较的,公式如下:
其中|D|表示的文件总数,|{j:ti∈dj}|表示包含词语ti的文件总数。
所述IDF的大小是以采集得到的10000篇新闻为测试数据集,计算出其中包含的每个单词的IDF并存储至配置文件(共包含了27万左右常见词语的IDF)。需要使用时,直接从配置文件中读取相应单词的IDF值即可,无需统计所有文档中出现该单词的文档数,计算量相对比较小,运行速度快。对于未存储在配置文件中的新词或者生僻词,将所有IDF的均值作为该词的IDF
进一步地,所述步骤S12中作为关键词的前5个word的每一个word的长度在2-6之间。
本发明采用以上技术方案,在提取关键词中的过程中增加词性因子,可以在提高关键词提取的准确度的同时,有效解决相关方案中要构造Pat-tree等导致空间复杂度大等问题。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种基于改进TF-IDF关键词提取算法的流程示意图。
具体实施方式
如图1所示,本发明公开了一种基于改进TF-IDF关键词提取算法,其包括以下步骤:
S1:将文本的输入形式统一格式化;
S2:将文本标准格式化,对Stanford NLP加载属性Properties配置文件;
S3:在Properties配置文件中根据定义的句子分隔符号,得到文本中的所有句子的集合Sentences;
S4:每次从集合Sentences中取出一条句子;
S5:获取当前的句子中所有的词语集合Tokens;
S6:每次从集合Tokens中取出一个token;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710369600.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调式鼻腔扩容器
- 下一篇:一种用于线缆的桥架