[发明专利]基于预建词库的长文本企业名称识别方法有效
申请号: | 201910526865.4 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110413764B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 林波 | 申请(专利权)人: | 杭州熊猫智云企业服务有限公司 |
主分类号: | G06F16/338 | 分类号: | G06F16/338;G06F16/34;G06F16/957;G06F16/955;G06F40/289 |
代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 龙湖浩 |
地址: | 310000 浙江省杭州市余杭区仓前街道海创科技中*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于预建词库的长文本企业名称识别方法,其特征在于,包括以下步骤:从数据库中读取预先建立的企业名称词库,在内存中为词库和关键词所指向的数据ID建立一个有序索引;在完整索引的基础上再构建一个哈希索引;输入目标文本进行匹配时,用p来表示字符在输入的目标文字的位置;判断输入的目标文本中第p个字符是否落入哈希索引内,若在,则从当前字符开始,选择相应的关键词匹配模式对输入的目标文本进行关键词查找;输入的目标文本经过上述查找步骤后得到返回信息;根据返回信息的具体内容在构建好的企业名称库中搜索到对应企业的信息。本发明能够在数据库中识别该企业名称对应的企业数据,同时增加了指定可忽略文本及标点分拆的功能,提高了字符识别的准确度,降低了运行成本。 | ||
搜索关键词: | 基于 词库 文本 企业名称 识别 方法 | ||
【主权项】:
1.一种基于预建词库的长文本企业名称识别算法,其特征在于,包括以下步骤:S1:从数据库中读取预先建立的企业名称词库,在内存中为词库和关键词所指向的数据ID建立一个有序索引;S2:在完整索引的基础上再构建一个以所有关键词第一个字符为键,相同起始字符关键词所在区间的起始和结束索引位置为值的哈希索引;S3:输入目标文本进行匹配时,用p来表示字符在输入的目标文字的位置,初始化目标文本识别起始位置,即p=0;S4:判断输入的目标文本中第p个字符是否落入哈希索引内,若输入字符不在哈希索引中则直接偏移到下一字符进行判断;若输入目标文本的第p个字符在哈希索引中能够找到一个查找区间,则从当前字符开始,获取该字符起始词汇所在位置索引区间R到E与长度区间D到M;S5:选择相应的关键词匹配模式对输入的目标文本进行关键词查找;S6:输入的目标文本经过上述查找步骤后得到返回信息;S7:根据返回信息的具体内容在构建好的企业库中搜索到对应企业的信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州熊猫智云企业服务有限公司,未经杭州熊猫智云企业服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910526865.4/,转载请声明来源钻瓜专利网。
- 上一篇:搜索排序器的自动选择
- 下一篇:一种海量数据集分析和展示的交互式系统及其方法