[发明专利]论文关键词提取系统及其方法有效
申请号: | 202110059411.8 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112765979B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 李显勇;李齐治;杜亚军;范永全;陈晓亮 | 申请(专利权)人: | 西华大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 孟仕杰 |
地址: | 610039 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 论文 关键词 提取 系统 及其 方法 | ||
本发明涉及人工智能领域,具体是论文关键词提取系统,包括训练集、Jieba分词器、清洗模块、权重计算模型、频率计算模型和输出模型;论文关键词提取方法,包括如下步骤:S1、利用词语筛选模块获取训练集中论文正文的词语形成词语训练集;S2、通过Jieba分词器分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语,并通过清洗模块输出关键词语;S3、将步骤S2的结果输入权重计算模型进行训练;S4、将步骤S2的结果输入频率计算模型进行训练;S5、将步骤S3和S4的输出结果输入输出模型进行训练;S6、将目标论文输入权重计算模型、频率计算模型和输出模型,得到关键字;提出了将无监督的方法和有监督的方法相结合的方式对论文的关键字进行一个获取。
技术领域
本发明涉及人工智能领域,具体是指论文关键词提取系统及其方法。
背景技术
一篇论文,分为摘要、关键字、目录、正文、致谢、参考文献和总结,读者在检索或工作需求时,需要快速的找出谋篇论文的关键字,虽然论文都设置了关键字一项,但是此关键字并非准确,需要读者自行判断,由于关键字主要出现在摘要、正文和总结中,因此现有技术通常利用如下两种方法进行提取:
(1)无监督的方法不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练,极大地增大了系统的运行效率,降低了人工的成本,TF算法是一种无监督的基于统计的关键字提取算法,用于评估一个文档集中一个词对某份文档的重要程度,还能统计一个词在一篇文档中出现的频次,如果一个词在一篇文档中出现的次数过多,那么表明这个词语对这篇文章的表达就更强,但使用无监督的方法缺点在于准确率不高;
(2)有监督的方法训练权重比值,能够得到较高的精度,获得更准确的权重,使得结果能够减少出错的可能,但缺点是运行速度慢。
综上,如何将无监督的方法和有监督的方法结合进行论文中关键字的提取,成为了难题。
发明内容
基于以上问题,本发明提供了论文关键词提取系统及其方法,提出了将无监督的方法和有监督的方法相结合的方式对论文的关键字进行一个获取。
为解决以上技术问题,本发明采用的技术方案如下:
论文关键词提取系统,包括
训练集,包含了若干篇用于训练的论文;
词语筛选模块,用于获取论文中正文部分的词语形成词语训练集;
Jieba分词器,用于分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语;
清洗模块,用于将Jieba分词器提取出来的词语进行停用词清洗得到关键词语;
权重计算模型,用于计算关键词语在论文训练集内摘要或正文或总结的权重;
频率计算模型,用于计算关键词语在论文训练集内摘要或正文或总结的出现频率;
输出模型,用于输出关键字。
论文关键词提取方法,采用论文关键词提取系统,包括如下步骤:
S1、利用词语筛选模块获取训练集中论文正文的词语形成词语训练集;
S2、通过Jieba分词器分词切割出论文中摘要、正文或总结中出现的所有词语训练集的词语,并将该词语输入清洗模块进行停用词清洗,输出经过停用词清洗后的关键词语;
S3、将步骤S2的结果输入权重计算模型进行训练;
S4、将步骤S2的结果输入频率计算模型进行训练;
S5、将步骤S3和S4的输出结果输入到输出模型进行训练;
S6、将待提取关键字的论文输入到权重计算模型、频率计算模型和输出模型,得到关键字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学,未经西华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110059411.8/2.html,转载请声明来源钻瓜专利网。