[发明专利]一种基于统计学的企业名名称相似度检测方法在审

申请号：	202010916792.2	申请日：	2020-09-03
公开（公告）号：	CN112035621A	公开（公告）日：	2020-12-04
发明（设计）人：	宋兵	申请（专利权）人：	江苏经贸职业技术学院
主分类号：	G06F16/33	分类号：	G06F16/33
代理公司：	北京力量专利代理事务所(特殊普通合伙) 11504	代理人：	徐颖超
地址：	211199 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于统计学企业名称相似检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于统计学的企业名名称相似度检测方法，包括如下步骤：对企业名称进行中文分词；统计全网企业名称热词，建立停用词库；将分词结果遍历停用词库，剔除遍历过程中匹配到停用词库中热词的分词，得到关键词；将关键词与全网企业名称进行匹配，将匹配对应的企业名称进行统计，建立待对比名称库；对企业名称和待检验名称库内各名称进行相似度计算。通过建立停用词库，将检测的企业名称分词结果与停用词库进行对比剔除，得到企业名称中的关键字，避免大量热词对检测过程造成干扰，减免人工删选和补充工作量，根据关键词与全网数据进行匹配，得到待对比相似度的名称集，并进行相似度计算，从而快速检测处相似度结果，提高计算精度。

技术领域

本发明涉及企业名称检测技术领域，具体为一种基于统计学的企业名名称相似度检测方法。

背景技术

企业名称是一个企业的头面，一个企业区别于其他企业的文字符号，依次由企业所在地的行政区划、字号、行业或者经营特点、组织形式等四部分组成，字号是区别不同企业的主要标志，一个企业能够被人们快速记住并防止与其他企业进行混淆是一个成功的企业名称所需要具备的特性，因此企业名称确立时需要与其他现有企业名称进行对比，确立相似度，避免过于相似导致的混淆和侵权问题，企业名称相似度检测中大量行政区划、行业或者经营特点、组织形式等数据都是出现频率非常高的热词，给相似度检测工作带来了大量干扰和误差，且需要通过人工去甄别、补充，导致企业名称相似度检测效率和精度较低，为此我们提出一种基于统计学的企业名名称相似度检测方法用于解决上述问题。

发明内容

本发明的目的在于提供一种基于统计学的企业名名称相似度检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于统计学的企业名名称相似度检测方法，包括如下步骤：

S1、对企业名称进行中文分词，得到分词结果；

S2、统计全网企业名称热词，从而建立停用词库；

S3、将所述分词结果遍历所述停用词库，剔除遍历过程中匹配到所述停用词库中热词的分词，从而得到关键词；

S4、将所述关键词与全网企业名称进行匹配，并将匹配对应的企业名称进行统计，建立待对比名称库；

S5、对企业名称和待检验名称库内各名称进行相似度计算。

优选的一种实施案例，步骤S1中，所述中文分词通过IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器中的一种进行中文分词处理。

优选的一种实施案例，步骤S2中，全网企业名称热词的确定方法包括：

S201、从全网企业名称中随机抽取样本集；

S202、对样本集内各名称进行分词处理；