[发明专利]一种基于统计学的企业名称相似度计算方法在审

申请号：	201810373227.9	申请日：	2018-04-24
公开（公告）号：	CN108549640A	公开（公告）日：	2018-09-18
发明（设计）人：	吴梁斌;詹进林	申请（专利权）人：	易联众信息技术股份有限公司;易联众（厦门）大数据科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	厦门加减专利代理事务所(普通合伙) 35234	代理人：	李强
地址：	361008 福建省厦***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词相似度计算词条集合统计学凝固度字符串相似度余弦相似度可信性编辑距离满足条件名称数据传统的词汇库鲁棒性相似度词汇
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于统计学的企业名称相似度计算方法，其特征在于，包括如下步骤：

S100：建立分词工具：收集某区域所有的企业名称，并对所获取的企业名称进行分词，计算每个词的凝固度和自由度；将凝固度和自由度满足条件的新词加入ANSJ分词工具词汇库中；

S200：获取IDF值表：利用S100获得的分词工具对企业名称数据集中的每个企业名称进行分词，获得每个企业名称的词条集合，并对每个企业名称的词条集合中的每个词计算IDF值；

S300：计算不同企业名称的相似度：根据S200所获得的每个企业名称的词条集合中的每个词计算IDF值，获得需要对比的不同企业名称分词得到的词汇所对应的IDF值，计算不同企业名称的相似度。

2.根据权利要求1所述的基于统计学的企业名称相似度计算方法，其特征在于：

S100的具体步骤如下：

S110：收集某区域所有的企业名称，得到企业名称数据集；对企业名称数据集进行分词，并统计每个词、每个词的左邻字和每个词的右邻字的数量；

S120：通过S110中获得的企业名称数据集中的每个词、每个词的左邻字和每个词的右邻字的数量，计算企业名称数据集中的每个词的凝固度和自由度，根据所计算的结果，判断企业名称数据集中的每个词是否成词；

S130：将S120中所确定的词与ANSJ分词工具词汇库中的词进行对比，如果从企业名称数据集中提取的词在ANSJ分词工具词汇库中并不存在，则将不存在于ANSJ分词工具词汇库中的词加入ANSJ分词工具词汇库中。

3.根据权利要求2所述的基于统计学的企业名称相似度计算方法，其特征在于：

S120中企业名称数据集中的每个词的凝固度和自由度计算方法如下：

凝固度：

左邻字自由度：

右邻字自由度：

其中：第i个词出现的数量用x_i表示，第i个词出现的左邻字集合为为第i个词中出现的第m个左邻字的数量，第i个词出现的右邻字集合为为第i个词中出现的第k个右邻字的数量；表示每个词出现的数量总和，第i个词由集合C(x_i)＝{x_i1,x_i2,L,x_ij}组成，x_ij表示第i个词中第j个组成词的数量。

4.根据权利要求2所述的基于统计学的企业名称相似度计算方法，其特征在于：如果某个词凝固度大于100，并且左右自由度大于1.3，则认为这个词能够成词。

5.根据权利要求1所述的基于统计学的企业名称相似度计算方法，其特征在于：S200中IDF值的计算方法具体如下：

其中，D为企业名称数据集中企业数量，{j:t_k∈d_j}表示词k在所有企业中出现的次数。

6.根据权利要求1所述的基于统计学的企业名称相似度计算方法，其特征在于：

S300中，两个不同企业名称的相似度计算方法如下：

根据S100获得的分词工具获取两个不同企业名称词条集合，则两个企业名称相似度的计算公式如下：

其中，相同的词表示为S＝{s_1,L,s_p}，为相同词的IDF值之和，为数据服务提供方获得的企业名称词条集合中每个词的IDF值之和。

7.根据权利要求5所述的基于统计学的企业名称相似度计算方法，其特征在于：S400中获取不同企业名称词条集合中每个词的IDF值时，对原IDF值表中的值进行f(x)＝x⁴处理，获得计算相似度时所需的IDF值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于易联众信息技术股份有限公司;易联众（厦门）大数据科技有限公司，未经易联众信息技术股份有限公司;易联众（厦门）大数据科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810373227.9/1.html，转载请声明来源钻瓜专利网。