[发明专利]一种基于统计学的企业名名称相似度检测方法在审
申请号: | 202010916792.2 | 申请日: | 2020-09-03 |
公开(公告)号: | CN112035621A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 宋兵 | 申请(专利权)人: | 江苏经贸职业技术学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 徐颖超 |
地址: | 211199 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计学 企业 名称 相似 检测 方法 | ||
1.一种基于统计学的企业名名称相似度检测方法,其特征在于,包括如下步骤:
S1、对企业名称进行中文分词,得到分词结果;
S2、统计全网企业名称热词,从而建立停用词库;
S3、将所述分词结果遍历所述停用词库,剔除遍历过程中匹配到所述停用词库中热词的分词,从而得到关键词;
S4、将所述关键词与全网企业名称进行匹配,并将匹配对应的企业名称进行统计,建立待对比名称库;
S5、对企业名称和待检验名称库内各名称进行相似度计算。
2.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S1中,所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。
3.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S2中,全网企业名称热词的确定方法包括:
S201、从全网企业名称中随机抽取样本集;
S202、对样本集内各名称进行分词处理;
S203、对S202中分词处理的各分词进行词频分析;
S204、设立热词阀值,保留出现词频高于阈值的分词并构成停用词库。
4.根据权利要求3所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:所述词频分析方法采用TF-DF值进行确定,其中,所述TF分词出现数量/总分词数量,所述DF=包含分词的名称数/样本总数,则每个分词的TF-DF值为TF*DF*100%,并取TF-DF值大于热词阈值的分词建立停用词库。
5.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S3中,得到关键词的剔除方法将企业名称分词遍历停用词库,当遍历中匹配车成功后对此分词进行替空操作,未匹配成功的分词自动保存,对企业名称分词依次进行,从而最终得到关键词。
6.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S5中,所述相似度计算采用Dice系数法,其计算公式为
其中,X表示需要检测的企业名称,Y表示待对比名称库内任意名称,|X∩Y|表示X和Y中相同关键词字符个数,|X|和|Y|分别表示X和Y的整体字符串长度。
7.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法,其特征在于:步骤S5计算出相似度后,设立相似度阀值,将所述待对比名称库内超过相似度阀值的名称进行提取,并按照名称-相似度格式进行检测结果输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏经贸职业技术学院,未经江苏经贸职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010916792.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:标定设备及标定方法
- 下一篇:一种电力驱动电机的散热壳体