[发明专利]基于预建词库的长文本企业名称识别方法有效

专利信息
申请号: 201910526865.4 申请日: 2019-06-18
公开(公告)号: CN110413764B 公开(公告)日: 2023-09-01
发明(设计)人: 林波 申请(专利权)人: 杭州熊猫智云企业服务有限公司
主分类号: G06F16/338 分类号: G06F16/338;G06F16/34;G06F16/957;G06F16/955;G06F40/289
代理公司: 杭州华知专利事务所(普通合伙) 33235 代理人: 龙湖浩
地址: 310000 浙江省杭州市余杭区仓前街道海创科技中*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 词库 文本 企业名称 识别 方法
【权利要求书】:

1.一种基于预建词库的长文本企业名称识别方法,其特征在于,包括以下步骤:

S1:从数据库中读取预先建立的企业名称词库,在内存中为词库和关键词所指向的数据ID建立一个有序索引;

S2:在完整索引的基础上再构建一个以所有关键词第一个字符为键,相同起始字符关键词所在区间的起始和结束索引位置为值的哈希索引;

S3:输入目标文本进行匹配时,用p来表示字符在输入的目标文字的位置,初始化目标文本识别起始位置,即p=0;

S4:判断输入的目标文本中第p个字符是否落入哈希索引内,若输入字符不在哈希索引中则直接偏移到下一字符进行判断;若输入目标文本的第p个字符在哈希索引中能够找到一个查找区间,则从当前字符开始,获取该字符起始词汇所在位置索引区间R到E与长度区间D到M;

S5:选择相应的关键词匹配模式对输入的目标文本进行关键词查找;

S6:输入的目标文本经过上述查找步骤后得到返回信息;

S7:根据返回信息的具体内容在构建好的企业库中搜索到对应企业的信息;

所述关键词匹配模式为最长匹配模式、最短匹配模式或最多匹配模式;

所述最长匹配模式的具体步骤为:设置匹配长度L=M,若目标文本从当前字符开始的L长度的文本没有找到关键词则L递减一个长度,并重新在这个区间做二分查找,直至L递减到该区间最短词汇长度D,目标文本查找位置p向后偏移1位;若匹配到关键词,记入返回结果集并停止查找,则目标文本的当前位置则向后偏移已找到词汇长度,返回步骤S4;

所述最短匹配模式的具体步骤为:设置匹配长度L=D,若目标文本从当前字符开始的L长度文本未找到关键词则递增一个长度,并重新在这个区间做二分查找,直至递增到该区间最长词汇长度,目标文本查找位置向后偏移1位;若匹配到关键词,记入返回结果集并停止查找,则目标文本的当前位置则向后偏移已找到词汇长度,返回步骤S4;

所述最多匹配模式的具体步骤为:设置匹配长度L=D,若目标文本从当前字符开始的L长度文本未找到关键词则L递增一个长度,并重新在这个区间做二分查找,直至递增到该区间最长词汇长度M,目标文本查找位置p向后移1位;若匹配到关键词,记入返回结果集,目标文本的当前位置则向后偏移1位,返回步骤S4。

2.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法,其特征在于,所述二分查找方法中还考虑到了可忽略字符的影响,在进行查找前指定目标文本中可忽略字符,在查找至该字符时,比较方法会忽略该字符的比对,同时忽略其在匹配长度中所占的长度。

3.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法,其特征在于,所述返回信息包括词库词汇、词汇数据ID、文本词汇、文本所在位置和匹配文本长度。

4.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法,其特征在于,该方法还包括标点分拆,所述标点分拆作为查找方法的优化迭代,将文本中那些不可能出现在企业名称中的标点符号作为分隔符,将文本拆分为短句文本,在查找过程中将那些处于文本尾部且落在哈希索引中查找区间中但剩余长度又不满足该字符词汇区间最小词汇长度的字符跳过。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州熊猫智云企业服务有限公司,未经杭州熊猫智云企业服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910526865.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top