[发明专利]一种基于容错粗糙集的自动关键字提取方法、介质及系统有效

申请号：	202110500649.X	申请日：	2021-05-08
公开（公告）号：	CN113378557B	公开（公告）日：	2022-08-23
发明（设计）人：	邱东;郑芹	申请（专利权）人：	重庆邮电大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/216;G06F40/242
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	陈栋梁
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于容错粗糙自动关键字提取方法介质系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于容错粗糙集的自动关键字提取方法，用于计算机自然语言处理，其特征在于，包括以下步骤：

101、对语料库进行包括读取文档集合，进行文档单词分割、去除标点符号和数字、去除停用词在内的预处理操作；

102、读取预处理操作后的文档集合，并统计每个单词在文档集合中的频率，选取频率大于设定值的单词，构成基本单词集合；

103、对文档集合进行容错粗糙集的相关计算，得到模糊隶属矩阵；

104、根据基本单词集合，过滤文档单词，得到过滤后的文档集合；

105、对每个过滤后的文档建立无向有权图，并根据迭代公式计算候选关键字得分；

106、选择文档中的单词作为关键字；

所述步骤103对文档集合进行容错粗糙集的相关计算，得到模糊隶属矩阵，包括步骤：

C1、根据容错空间中的不确定性函数以及非负阈值，将每个基本单词投影到一个容错类中，得到不确定性矩阵，不确定性矩阵由所有基本单词的容错类组成；

C2、根据容错空间中的模糊隶属度函数，计算每个基本单词对每篇文档的模糊隶属度，得到模糊隶属矩阵，模糊隶属矩阵由所有基本单词对所有文档的模糊隶属度组成；

所述步骤105对每个过滤后的文档建立无向有权图，并根据迭代公式计算候选关键字得分，具体步骤如下：

E1、定义：令G(V，E)表示无向有权图，V是节点集，表示文档中的所有候选单词，E是边集，其中每条边连接的两个单词表示它们在同一个滑动窗口内同时出现，并且边的权重是两个连接单词之间的共现度；令tf_ij表示第i个单词在第j篇文档中的频率；令μ_ij表示第i个单词对第j篇文档的模糊隶属度；

E2、构造公式：

iwf(V_i，D_j)表示第i个节点在第j篇文档中的初始权重即单词的初始重要性；

E3、根据TextRank中的迭代公式以及E2中的公式得到新的迭代公式：

S(V_i，D_l)表示当前节点V_i在文档D_l中的权重；S(V_j，D_l)表示先前迭代出的节点V_j在文档D_l中的权重；等号右边的求和公式表示与当前节点相邻的所有节点对该节点的贡献程度；In(V_i)代表指向V_i的节点的集合，Out(V_j)是(V_j)指向的节点的集合；WE_ji表示节点V_j到当前节点V_i的边的权重；表示节点V_j到它指向的所有节点的边的权重之和；d表示在图网络中随机选择一个节点的概率，被称为阻尼系数，默认值为0.85；