[发明专利]一种企业名称的切分方法、装置及计算机可读存储介质有效
申请号: | 201810615090.3 | 申请日: | 2018-06-14 |
公开(公告)号: | CN109101480B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 过弋;王志宏 | 申请(专利权)人: | 华东理工大学;石河子大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业名称 切分 方法 装置 计算机 可读 存储 介质 | ||
1.一种企业名称的切分方法,其特征在于,在一次企业名称切分过程中,包括:
获取上一次企业名称切分后剩下的文本;
根据所述上一次企业名称切分后剩下的文本的前两个字构成的词的概率,以及所述上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率,确定对所述上一次企业名称切分后剩下的文本的切分方式,其中所述词的概率为词在企业名称库中的概率;
根据所述上一次企业名称切分后剩下的文本,以及所述切分方式,确定本次切分得到的分词,以及本次企业名称切分后剩下的文本;
判断所述本次企业名称切分后剩下的文本的字数是否大于2,若是,继续下一次的企业名称切分过程,直至所述字数不大于2,否则,停止企业名称切分过程;
其中,所述切分方式为以下三种切分方式中的任意一种:第一切分方式、第二切分方式、第三切分方式;其中,所述第一切分方式为在所述上一次企业名称切分后剩下的文本的第1个字和第2个字之间进行切分;所述第二切分方式为在所述上一次企业名称切分后剩下的文本的第2个字和第3个字之间进行切分;所述第三切分方式为在所述上一次企业名称切分后剩下的文本的第3个字和第4个字之间进行切分;
所述根据所述上一次企业名称切分后剩下的文本的前两个字构成的词的概率,以及所述上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率,确定对所述上一次企业名称切分后剩下的文本的切分方式,具体包括:计算所述上一次企业名称切分后剩下的文本的第2个字与第3个字构成的词的概率与所述上一次企业名称切分后剩下的文本的前两个字构成的词的概率的比值;若确定所述比值大于第一阈值,确定所述切分方式为所述第二切分方式;若确定所述比值不大于所述第一阈值,判断所述比值是否大于第二阈值;若是,确定所述切分方式为所述第三切分方式;否则,确定所述切分方式为所述第一切分方式。
2.根据权利要求1所述的企业名称的切分方法,其特征在于,在确定企业名称中相邻两个字构成的词分别在企业名称库中出现的概率之前,所述企业名称的切分方法还包括:
提取所述企业名称中的区域信息,将提取后的企业名称作为切分的企业名称。
3.根据权利要求2所述的企业名称的切分方法,其特征在于,所述提取所述企业名称中的区域信息,具体包括:
基于正向最大匹配算法,提取所述企业名称中的区域信息。
4.根据权利要求1至3中任一项所述的企业名称的切分方法,其特征在于,在所述停止企业名称切分过程之后,所述企业名称的切分方法还包括:
根据得到的分词,确定所述企业名称的成分抽取结果。
5.根据权利要求4所述的企业名称的切分方法,其特征在于,所述根据得到的分词,确定所述企业名称的成分抽取结果,具体包括:
按得到每个分词的先后顺序排列所有分词;
若确定所述所有分词中存在由一个字组成的分词,根据所述由一个字组成的分词的位置,确定所述由一个字组成的分词的合并方式,将合并后得到的分词,以及其他未合并的分词,作为所述企业名称的成分抽取结果;
其中,所述合并方式包括向前合并方式或向后合并方式,所述向前合并方式为:将所述由一个字组成的分词与所述由一个字组成的分词的前一个分词合并;所述向后合并方式为:将所述由一个字组成的分词与所述由一个字组成的分词的后一个分词合并。
6.根据权利要求4所述的企业名称的切分方法,其特征在于,所述根据得到的分词,确定所述企业名称的成分抽取结果,具体包括:
若确定切分得到的分词的个数大于N,确定相邻的两个分词组成的词语分别在所述企业名称库中出现的概率,根据所述相邻的两个分词组成的词语的概率,确定所有分词的合并方式,将合并后得到的分词,以及其他未合并的分词作为所述企业名称的成分抽取结果;其中,N等于3或4。
7.一种企业名称的切分装置,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任一所述的企业名称的切分方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的企业名称的切分方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学;石河子大学,未经华东理工大学;石河子大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810615090.3/1.html,转载请声明来源钻瓜专利网。