[发明专利]一种基于统计学的企业名名称相似度检测方法在审

申请号：	202010916792.2	申请日：	2020-09-03
公开（公告）号：	CN112035621A	公开（公告）日：	2020-12-04
发明（设计）人：	宋兵	申请（专利权）人：	江苏经贸职业技术学院
主分类号：	G06F16/33	分类号：	G06F16/33
代理公司：	北京力量专利代理事务所(特殊普通合伙) 11504	代理人：	徐颖超
地址：	211199 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于统计学企业名称相似检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于统计学的企业名名称相似度检测方法，其特征在于，包括如下步骤：

S1、对企业名称进行中文分词，得到分词结果；

S2、统计全网企业名称热词，从而建立停用词库；

S3、将所述分词结果遍历所述停用词库，剔除遍历过程中匹配到所述停用词库中热词的分词，从而得到关键词；

S4、将所述关键词与全网企业名称进行匹配，并将匹配对应的企业名称进行统计，建立待对比名称库；

S5、对企业名称和待检验名称库内各名称进行相似度计算。

2.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S1中，所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。

3.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S2中，全网企业名称热词的确定方法包括：

S201、从全网企业名称中随机抽取样本集；

S202、对样本集内各名称进行分词处理；

S203、对S202中分词处理的各分词进行词频分析；

S204、设立热词阀值，保留出现词频高于阈值的分词并构成停用词库。

4.根据权利要求3所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：所述词频分析方法采用TF-DF值进行确定，其中，所述TF分词出现数量/总分词数量，所述DF＝包含分词的名称数/样本总数，则每个分词的TF-DF值为TF*DF*100％，并取TF-DF值大于热词阈值的分词建立停用词库。

5.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S3中，得到关键词的剔除方法将企业名称分词遍历停用词库，当遍历中匹配车成功后对此分词进行替空操作，未匹配成功的分词自动保存，对企业名称分词依次进行，从而最终得到关键词。

6.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S5中，所述相似度计算采用Dice系数法，其计算公式为

其中，X表示需要检测的企业名称，Y表示待对比名称库内任意名称，|X∩Y|表示X和Y中相同关键词字符个数，|X|和|Y|分别表示X和Y的整体字符串长度。

7.根据权利要求1所述的一种基于统计学的企业名名称相似度检测方法，其特征在于：步骤S5计算出相似度后，设立相似度阀值，将所述待对比名称库内超过相似度阀值的名称进行提取，并按照名称-相似度格式进行检测结果输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏经贸职业技术学院，未经江苏经贸职业技术学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010916792.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载