[发明专利]一种基于统计学的企业名名称相似度检测方法在审
申请号: | 202010916792.2 | 申请日: | 2020-09-03 |
公开(公告)号: | CN112035621A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 宋兵 | 申请(专利权)人: | 江苏经贸职业技术学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 徐颖超 |
地址: | 211199 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计学 企业 名称 相似 检测 方法 | ||
本发明公开了一种基于统计学的企业名名称相似度检测方法,包括如下步骤:对企业名称进行中文分词;统计全网企业名称热词,建立停用词库;将分词结果遍历停用词库,剔除遍历过程中匹配到停用词库中热词的分词,得到关键词;将关键词与全网企业名称进行匹配,将匹配对应的企业名称进行统计,建立待对比名称库;对企业名称和待检验名称库内各名称进行相似度计算。通过建立停用词库,将检测的企业名称分词结果与停用词库进行对比剔除,得到企业名称中的关键字,避免大量热词对检测过程造成干扰,减免人工删选和补充工作量,根据关键词与全网数据进行匹配,得到待对比相似度的名称集,并进行相似度计算,从而快速检测处相似度结果,提高计算精度。
技术领域
本发明涉及企业名称检测技术领域,具体为一种基于统计学的企业名名称相似度检测方法。
背景技术
企业名称是一个企业的头面,一个企业区别于其他企业的文字符号,依次由企业所在地的行政区划、字号、行业或者经营特点、组织形式等四部分组成,字号是区别不同企业的主要标志,一个企业能够被人们快速记住并防止与其他企业进行混淆是一个成功的企业名称所需要具备的特性,因此企业名称确立时需要与其他现有企业名称进行对比,确立相似度,避免过于相似导致的混淆和侵权问题,企业名称相似度检测中大量行政区划、行业或者经营特点、组织形式等数据都是出现频率非常高的热词,给相似度检测工作带来了大量干扰和误差,且需要通过人工去甄别、补充,导致企业名称相似度检测效率和精度较低,为此我们提出一种基于统计学的企业名名称相似度检测方法用于解决上述问题。
发明内容
本发明的目的在于提供一种基于统计学的企业名名称相似度检测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于统计学的企业名名称相似度检测方法,包括如下步骤:
S1、对企业名称进行中文分词,得到分词结果;
S2、统计全网企业名称热词,从而建立停用词库;
S3、将所述分词结果遍历所述停用词库,剔除遍历过程中匹配到所述停用词库中热词的分词,从而得到关键词;
S4、将所述关键词与全网企业名称进行匹配,并将匹配对应的企业名称进行统计,建立待对比名称库;
S5、对企业名称和待检验名称库内各名称进行相似度计算。
优选的一种实施案例,步骤S1中,所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。
优选的一种实施案例,步骤S2中,全网企业名称热词的确定方法包括:
S201、从全网企业名称中随机抽取样本集;
S202、对样本集内各名称进行分词处理;
S203、对S202中分词处理的各分词进行词频分析;
S204、设立热词阀值,保留出现词频高于阈值的分词并构成停用词库。
优选的一种实施案例,所述词频分析方法采用TF-DF值进行确定,其中,所述TF分词出现数量/总分词数量,所述DF=包含分词的名称数/样本总数,则每个分词的TF-DF值为TF*DF*100%,并取TF-DF值大于热词阈值的分词建立停用词库。
优选的一种实施案例,得到关键词的剔除方法将企业名称分词遍历停用词库,当遍历中匹配车成功后对此分词进行替空操作,未匹配成功的分词自动保存,对企业名称分词依次进行,从而最终得到关键词。
优选的一种实施案例,步骤S5中,所述相似度计算采用Dice系数法,其计算公式为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏经贸职业技术学院,未经江苏经贸职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010916792.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:标定设备及标定方法
- 下一篇:一种电力驱动电机的散热壳体