[发明专利]一种基于复杂网络的法规检索方法及系统在审
申请号: | 202111476913.7 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114168733A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 陈梅;张锦宏;马学艳 | 申请(专利权)人: | 兰州交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 赵兴华 |
地址: | 730070 甘*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 复杂 网络 法规 检索 方法 系统 | ||
1.一种基于复杂网络的法规检索方法,其特征在于,所述基于复杂网络的法规检索方法包括:
对每部待分类法规进行分词处理,得到法规语料库;所述法规语料库中包括多个特征词;
计算所述法规语料库中每个特征词在各待分类法规中的词频-逆文本频率指数TF-IDF值;
针对每一待分类法规,根据每个特征词在所述待分类法规中的TF-IDF值,确定待分类法规的特征向量;
根据各待分类法规的特征向量,构建法规复杂网络;所述法规复杂网络包括节点集、边集和权重集;所述节点集中的节点为各待分类法规;
基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团;各法规社团中均包括多部分类后的法规;
获取用户输入的检索关键字,并计算所述检索关键字在各待分类法规中的TF-IDF值;
将TF-IDF值大于频率阈值的待分类法规作为检索结果集;
确定所述检索结果集中各待分类法规所属的法规社团,并向用户展示对应的法规社团。
2.根据权利要求1所述的基于复杂网络的法规检索方法,其特征在于,所述对每部待分类法规进行分词处理,得到法规语料库,具体包括:
针对每部待分类法规,对所述待分类法规进行分词处理,得到词集合;
去除所述词集合中的停用词,得到特征词集合;
将每部待分类法规的特征词集合合并,得到法规语料库。
3.根据权利要求1所述的基于复杂网络的法规检索方法,其特征在于,根据以下公式,计算特征词i在待分类法规j中的TF-IDF值:
其中,TF-IDFi,j为特征词i在待分类法规j中的TF-IDF值,ni,j为待分类法规j中特征词i出现的频次,nk,j为待分类法规j中特征词k出现的频次,K为法规j中的特征词集合,N为待分类法规的总数,Ni为法规语料库中包含特征词i的待分类法规的数量。
4.根据权利要求1所述的基于复杂网络的法规检索方法,其特征在于,所述根据每部待分类法规的特征向量,构建法规复杂网络,具体包括:
根据各待分类法规确定节点集;所述节点集中各待分类法规为节点;
针对任意两部待分类法规,计算两部待分类法规的特征向量之间的余弦相似度;
判断余弦相似度是否大于相似度阈值,若余弦相似度大于相似度阈值,则在两部待分类法规之间添加连边,并将余弦相似度作为边的权重;
将所有连边作为边集,各连边对应的权重作为权重集;
基于所述节点集、边集和权重集,构建法规复杂网络。
5.根据权利要求1所述的基于复杂网络的法规检索方法,其特征在于,所述基于社团检测算法,根据所述法规复杂网络,对各待分类法规进行类别划分,得到多个法规社团,具体包括:
为所述法规复杂网络中的每个节点初始化一个标签集;每个节点的标签集中包括一个唯一的初始标签;
针对第r次标签传播迭代,从所述法规复杂网络中随机选择一个节点作为监听者,所述监听者的邻居节点作为广播者;所述邻居节点为与所述监听者之间存在连边的节点;
各广播者采用多项分布实验方法从各自的标签集中选择一个标签,并将所述标签及所述标签的权重发送给监听者;所述标签的权重为所述广播者与监听者之间连边的权重;
计算所述监听者接收到的相同标签的权重之和;
将所述权重之和最高的标签添加至所述监听者的标签集中,重新从所述法规复杂网络中随机选择一个节点作为监听者,直至迭代次数大于或等于迭代阈值;
根据各节点标签集中的标签,确定多个法规社团。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州交通大学,未经兰州交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111476913.7/1.html,转载请声明来源钻瓜专利网。