[发明专利]基于预建词库的长文本企业名称识别方法有效
申请号: | 201910526865.4 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110413764B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 林波 | 申请(专利权)人: | 杭州熊猫智云企业服务有限公司 |
主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/34;G06F16/957;G06F16/955;G06F40/289 |
代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 龙湖浩 |
地址: | 310000 浙江省杭州市余杭区仓前街道海创科技中*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词库 文本 企业名称 识别 方法 | ||
1.一种基于预建词库的长文本企业名称识别方法,其特征在于,包括以下步骤:
S1:从数据库中读取预先建立的企业名称词库,在内存中为词库和关键词所指向的数据ID建立一个有序索引;
S2:在完整索引的基础上再构建一个以所有关键词第一个字符为键,相同起始字符关键词所在区间的起始和结束索引位置为值的哈希索引;
S3:输入目标文本进行匹配时,用p来表示字符在输入的目标文字的位置,初始化目标文本识别起始位置,即p=0;
S4:判断输入的目标文本中第p个字符是否落入哈希索引内,若输入字符不在哈希索引中则直接偏移到下一字符进行判断;若输入目标文本的第p个字符在哈希索引中能够找到一个查找区间,则从当前字符开始,获取该字符起始词汇所在位置索引区间R到E与长度区间D到M;
S5:选择相应的关键词匹配模式对输入的目标文本进行关键词查找;
S6:输入的目标文本经过上述查找步骤后得到返回信息;
S7:根据返回信息的具体内容在构建好的企业库中搜索到对应企业的信息;
所述关键词匹配模式为最长匹配模式、最短匹配模式或最多匹配模式;
所述最长匹配模式的具体步骤为:设置匹配长度L=M,若目标文本从当前字符开始的L长度的文本没有找到关键词则L递减一个长度,并重新在这个区间做二分查找,直至L递减到该区间最短词汇长度D,目标文本查找位置p向后偏移1位;若匹配到关键词,记入返回结果集并停止查找,则目标文本的当前位置则向后偏移已找到词汇长度,返回步骤S4;
所述最短匹配模式的具体步骤为:设置匹配长度L=D,若目标文本从当前字符开始的L长度文本未找到关键词则递增一个长度,并重新在这个区间做二分查找,直至递增到该区间最长词汇长度,目标文本查找位置向后偏移1位;若匹配到关键词,记入返回结果集并停止查找,则目标文本的当前位置则向后偏移已找到词汇长度,返回步骤S4;
所述最多匹配模式的具体步骤为:设置匹配长度L=D,若目标文本从当前字符开始的L长度文本未找到关键词则L递增一个长度,并重新在这个区间做二分查找,直至递增到该区间最长词汇长度M,目标文本查找位置p向后移1位;若匹配到关键词,记入返回结果集,目标文本的当前位置则向后偏移1位,返回步骤S4。
2.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法,其特征在于,所述二分查找方法中还考虑到了可忽略字符的影响,在进行查找前指定目标文本中可忽略字符,在查找至该字符时,比较方法会忽略该字符的比对,同时忽略其在匹配长度中所占的长度。
3.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法,其特征在于,所述返回信息包括词库词汇、词汇数据ID、文本词汇、文本所在位置和匹配文本长度。
4.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法,其特征在于,该方法还包括标点分拆,所述标点分拆作为查找方法的优化迭代,将文本中那些不可能出现在企业名称中的标点符号作为分隔符,将文本拆分为短句文本,在查找过程中将那些处于文本尾部且落在哈希索引中查找区间中但剩余长度又不满足该字符词汇区间最小词汇长度的字符跳过。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州熊猫智云企业服务有限公司,未经杭州熊猫智云企业服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910526865.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:搜索排序器的自动选择
- 下一篇:一种海量数据集分析和展示的交互式系统及其方法