[发明专利]基于正则表达式的接处警文本车牌号码提取方法和装置在审
申请号: | 202010306325.8 | 申请日: | 2020-04-17 |
公开(公告)号: | CN113111228A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 彭涛;张鹏;杨欣雨 | 申请(专利权)人: | 北京明亿科技有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/35;G06K9/62;G06Q50/18 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100021 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 接处警 文本 车牌 号码 提取 方法 装置 | ||
本公开实施例公开了基于正则表达式的接处警文本车牌号码提取方法和装置。该方法的一具体实施方式包括:获取待提取车牌号码接处警文本以及目标车牌号码类别集合,其中,各目标车牌号码类别属于预设车牌号码类别集合;将待提取车牌号码接处警文本与目标车牌号码类别集合中的各目标车牌号码类别对应的正则表达式进行匹配,以提取待提取车牌号码接处警文本中的相应目标车牌号码。该实施方式实现了自动提取接处警文本中的车牌号码。
技术领域
本公开实施例涉及计算机技术领域,具体涉及基于正则表达式的接处警文本车牌号码提取方法和装置。
背景技术
目前,公安机关的110接警员在接警时会录入接警文本。处警员在处警结束后会录入处警文本。接处警文本即包括上述接警文本和处警文本。实践中,往往接处警文本中都会涉及关于各种车牌号码的描述。案情分析员可以根据接处警文本中的车牌号码,分析各接处警文本中出现的相同或相近的车牌号码以期发现系列案件或关联案件(例如,同一车牌号码出现在多个接处警文本中),然而凭人工提取接处警文本中的车牌号码的人工成本太高且依赖于个人经验。
发明内容
本公开实施例提出了基于正则表达式的接处警文本车牌号码提取方法和装置。
第一方面,本公开实施例提供了一种基于正则表达式的接处警文本车牌号码提取方法,该方法包括:获取待提取车牌号码接处警文本以及目标车牌号码类别集合,其中,各目标车牌号码类别属于预设车牌号码类别集合;将待提取车牌号码接处警文本与目标车牌号码类别集合中的各目标车牌号码类别对应的正则表达式进行匹配,以提取待提取车牌号码接处警文本中的相应目标车牌号码。
在一些实施例中,预设车牌号码类别集合中各预设车牌号码类别对应的正则表达式是通过如下第一训练步骤预先训练得到的:获取训练样本集合和测试样本集合,其中,训练样本和测试样本均包括历史接处警文本和标注车牌号码信息,其中,标注车牌号码信息用于表征该历史接处警文本所包括的各预设车牌号码类别的车牌号码;对于预设车牌号码类别集合中的每个预设车牌号码类别,执行以下第一正则表达式确定操作:将各训练样本中标注车牌号码信息包括该预设车牌号码类别的训练样本确定为该预设车牌号码类别对应的正训练样本集合;在该预设车牌号码类别对应的正训练样本集合中选取正训练样本组成目标数目个正训练样本子集合;对于目标数目个正训练样本子集合中的每个正训练样本子集合,基于该正训练样本子集合中各正训练样本,生成与该预设车牌号码类别对应的候选正则表达式;基于测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为与该预设车牌号码类别对应的正则表达式。
在一些实施例中,在该预设车牌号码类别对应的正训练样本集合中选取正训练样本组成目标数目个正训练样本子集合,包括:执行目标数目次正训练样本子集合生成操作以生成目标数目个正训练样本子集合,正训练样本子集合生成操作包括:在该预设车牌号码类别对应的正训练样本集合中随机选取N个正训练样本组成正训练样本子集合,其中,N为对L除以M的商向下取整所得的整数,L是该预设车牌号码类别对应的正训练样本集合中的正样本数量,M是大于等于2小于L的正整数。
在一些实施例中,预设车牌号码类别集合中各预设车牌号码类别对应的正则表达式是通过如下第二训练步骤预先训练得到的:获取训练样本集合,其中,训练样本包括历史接处警文本和标注车牌号码信息,其中,标注车牌号码信息用于表征该历史接处警文本所包括的各预设车牌号码类别的车牌号码;对于预设车牌号码类别集合中的每个预设车牌号码类别,执行以下第二正则表达式确定操作:将各训练样本中标注车牌号码信息包括该预设车牌号码类别的训练样本确定为该预设车牌号码类别对应的正训练样本集合;基于该预设车牌号码类别对应的正训练样本集合,生成与该预设车牌号码类别对应的正则表达式。
在一些实施例中,预设车牌号码类别集合包括以下至少一项:小型汽车号牌,大型汽车号牌,挂车号牌,使、领馆汽车号牌,港澳入出境车号牌,教练汽车号牌,警用汽车号牌,新式军牌。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明亿科技有限公司,未经北京明亿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010306325.8/2.html,转载请声明来源钻瓜专利网。