[发明专利]一种政务文章标题关键字提取方法、设备及存储设备有效
申请号: | 202310467705.3 | 申请日: | 2023-04-27 |
公开(公告)号: | CN116187307B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 李颖;陈胜鹏;梅龙 | 申请(专利权)人: | 吉奥时空信息技术股份有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/216;G06F40/289;G06F40/30;G06F18/22 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 王佩 |
地址: | 430200 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 政务 文章 标题 关键字 提取 方法 设备 存储 | ||
本发明涉及一种政务文章标题提取方法、设备及存储设备,方法包括以下步骤:获取短文本集合
技术领域
本发明涉及数据处理领域,尤其涉及一种政务文章标题提取方法、设备及存储设备。
背景技术
一段文本的关键词是指最能代表文本核心关键内容的词汇,关键短语则指相邻关键词的组合。在构建文件搜索系统时,往往需要首先提取文章标题的关键词和关键短语,进而建立关键词或关键短语与文件的关联关系或索引映射,从而实现基于关键词或关键短语的文件快速搜索。
TextRank是一种基于图排序的文本关键词提取算法,它利用关键词在窗口中的共现关系,在相关联候选关键词之间建立连边,形成词共现网络,通过迭代计算得到每个关键词的权重。在固定窗口长度下,其算法结果与词频、词所处位置相关,多用于长文本关键词、关键短语及关键句提取。传统的TextRank算法,如CN109918660A 一种基于TextRank的关键词提取方法和装置、CN114328865A 一种改进的TextRank多特征融合教育资源关键词提取方法、CN110728136A 一种融合多因素的textrank关键词提取算法等,在TextRank算法基础上增加了词语长度、词性对关键词得分的影响,其在长文本关键字提取应用中表现良好,但并不适用于政务文章这类短文本的提取情况,其原因主要如下:
(1)在政务文章标题等短文本中,词语一般较为简单,词语一般不会重复出现,因而词频固定;
(2)在政务文章标题等短文本中,词语长度一般固定为2-3个字,且词长一般不影响词汇的关键性;
(3)在政务文章标题等短文本中,词性一般单一或固定,多以名词为主。
传统方法中,对于词位置的处理是设置为中间权重大,两端小,但在文章标题等短文本中,词位置对词关键性的影响较为随机。因此传统的TextRank算法提取其短文本关键词,或者即使能够提取,但其提取的准确度较低。
发明内容
为解决传统TextRank算法提取其短文本关键词不适用或准确度低的技术问题,本发明提出了一种政务文章标题提取方法、设备及存储设备,其中,方法采取两端补充占位符的方式,消解词位置对关键性的影响,同时通过融合语义相似度,改进传统的TextRank计算公式,使得计算结果能够兼顾语义相似度与词共现关系,从而提升关键词提取准确度。
本发明供的一种政务文章标题提取方法,具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉奥时空信息技术股份有限公司,未经吉奥时空信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310467705.3/2.html,转载请声明来源钻瓜专利网。