[发明专利]一种基于容错粗糙集的自动关键字提取方法、介质及系统有效
申请号: | 202110500649.X | 申请日: | 2021-05-08 |
公开(公告)号: | CN113378557B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 邱东;郑芹 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06F40/242 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 容错 粗糙 自动 关键字 提取 方法 介质 系统 | ||
1.一种基于容错粗糙集的自动关键字提取方法,用于计算机自然语言处理,其特征在于,包括以下步骤:
101、对语料库进行包括读取文档集合,进行文档单词分割、去除标点符号和数字、去除停用词在内的预处理操作;
102、读取预处理操作后的文档集合,并统计每个单词在文档集合中的频率,选取频率大于设定值的单词,构成基本单词集合;
103、对文档集合进行容错粗糙集的相关计算,得到模糊隶属矩阵;
104、根据基本单词集合,过滤文档单词,得到过滤后的文档集合;
105、对每个过滤后的文档建立无向有权图,并根据迭代公式计算候选关键字得分;
106、选择文档中的单词作为关键字;
所述步骤103对文档集合进行容错粗糙集的相关计算,得到模糊隶属矩阵,包括步骤:
C1、根据容错空间中的不确定性函数以及非负阈值,将每个基本单词投影到一个容错类中,得到不确定性矩阵,不确定性矩阵由所有基本单词的容错类组成;
C2、根据容错空间中的模糊隶属度函数,计算每个基本单词对每篇文档的模糊隶属度,得到模糊隶属矩阵,模糊隶属矩阵由所有基本单词对所有文档的模糊隶属度组成;
所述步骤105对每个过滤后的文档建立无向有权图,并根据迭代公式计算候选关键字得分,具体步骤如下:
E1、定义:令G(V,E)表示无向有权图,V是节点集,表示文档中的所有候选单词,E是边集,其中每条边连接的两个单词表示它们在同一个滑动窗口内同时出现,并且边的权重是两个连接单词之间的共现度;令tfij表示第i个单词在第j篇文档中的频率;令μij表示第i个单词对第j篇文档的模糊隶属度;
E2、构造公式:
iwf(Vi,Dj)表示第i个节点在第j篇文档中的初始权重即单词的初始重要性;
E3、根据TextRank中的迭代公式以及E2中的公式得到新的迭代公式:
S(Vi,Dl)表示当前节点Vi在文档Dl中的权重;S(Vj,Dl)表示先前迭代出的节点Vj在文档Dl中的权重;等号右边的求和公式表示与当前节点相邻的所有节点对该节点的贡献程度;In(Vi)代表指向Vi的节点的集合,Out(Vj)是(Vj)指向的节点的集合;WEji表示节点Vj到当前节点Vi的边的权重;表示节点Vj到它指向的所有节点的边的权重之和;d表示在图网络中随机选择一个节点的概率,被称为阻尼系数,默认值为0.85;
E4、根据E3中的新迭代公式,计算出文档中每个单词的得分。
2.根据权利要求1所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述步骤101对语料库进行预处理操作,具体包括:
A1、读取语料库,对其中的所有文档进行单词分割,保存在本地;
A2、读取本地上单词分割后的文档集合,按照去除符号和数字,读取停用词列表,去除停用词的顺序对其中的每篇文档进行处理;
A3、将按照步骤A2处理后的每篇文档以单词列表的形式保存到内存中。
3.根据权利要求2所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述步骤102统计单词频率,选取频率较高的单词,构成基本单词集合,具体包括:
B1、读取文档集合中的所有不同的单词,统计出它们的频率,频率即出现在文档集合中的次数,形成一个带有频率的单词字典;
B2、对B1得到的单词字典进行降序排序,选取其中频率高于设定值y1的单词组合成一个基本单词集合。
4.根据权利要求3所述的一种基于容错粗糙集的自动关键字提取方法,其特征在于,所述容错粗糙集对应的是一个容错空间,其中有论域、不确定性函数、模糊隶属度函数以及结构函数,基本单词集合就是论域,基本单词集合没有考虑结构函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110500649.X/1.html,转载请声明来源钻瓜专利网。