[发明专利]一种基于统计学的企业名名称相似度检测方法在审

专利信息
申请号: 202010916792.2 申请日: 2020-09-03
公开(公告)号: CN112035621A 公开(公告)日: 2020-12-04
发明(设计)人: 宋兵 申请(专利权)人: 江苏经贸职业技术学院
主分类号: G06F16/33 分类号: G06F16/33
代理公司: 北京力量专利代理事务所(特殊普通合伙) 11504 代理人: 徐颖超
地址: 211199 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 统计学 企业 名称 相似 检测 方法
【权利要求书】:

1.一种基于统计学的企业名名称相似度检测方法,其特征在于,包括如下步骤:

S1、对企业名称进行中文分词,得到分词结果;

S2、统计全网企业名称热词,从而建立停用词库;

S3、将所述分词结果遍历所述停用词库,剔除遍历过程中匹配到所述停用词库中热词的分词,从而得到关键词;

S4、将所述关键词与全网企业名称进行匹配,并将匹配对应的企业名称进行统计,建立待对比名称库;

S5、对企业名称和待检验名称库内各名称进行相似度计算。

2.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S1中,所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。

3.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S2中,全网企业名称热词的确定方法包括:

S201、从全网企业名称中随机抽取样本集;

S202、对样本集内各名称进行分词处理;

S203、对S202中分词处理的各分词进行词频分析;

S204、设立热词阀值,保留出现词频高于阈值的分词并构成停用词库。

4.根据权利要求3所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:所述词频分析方法采用TF-DF值进行确定,其中,所述TF分词出现数量/总分词数量,所述DF=包含分词的名称数/样本总数,则每个分词的TF-DF值为TF*DF*100%,并取TF-DF值大于热词阈值的分词建立停用词库。

5.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S3中,得到关键词的剔除方法将企业名称分词遍历停用词库,当遍历中匹配车成功后对此分词进行替空操作,未匹配成功的分词自动保存,对企业名称分词依次进行,从而最终得到关键词。

6.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S5中,所述相似度计算采用Dice系数法,其计算公式为

其中,X表示需要检测的企业名称,Y表示待对比名称库内任意名称,|X∩Y|表示X和Y中相同关键词字符个数,|X|和|Y|分别表示X和Y的整体字符串长度。

7.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S5计算出相似度后,设立相似度阀值,将所述待对比名称库内超过相似度阀值的名称进行提取,并按照名称-相似度格式进行检测结果输出。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏经贸职业技术学院,未经江苏经贸职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010916792.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top