[发明专利]基于正则表达式的接处警文本居住地地址提取方法和装置在审
申请号: | 202010307808.X | 申请日: | 2020-04-17 |
公开(公告)号: | CN113111233A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 彭涛;张鹏;杨欣雨 | 申请(专利权)人: | 北京明亿科技有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/387;G06Q50/26 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100021 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 接处警 文本 居住 地址 提取 方法 装置 | ||
本公开实施例公开了基于正则表达式的接处警文本居住地地址提取方法和装置。该方法的一具体实施方式包括:获取待提取居住地地址信息接处警文本;将待提取居住地地址信息接处警文本与居住地标识提取正则表达式匹配,得到居住地标识位置信息序列;将待提取居住地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;对于居住地标识位置信息序列中的每个居住地标识位置信息,执行居住地地址信息提取操作;将居住地标识位置信息序列中各居住地标识位置信息对应的居住地地址信息确定为待提取居住地地址信息接处警文本对应的居住地地址信息集合。该实施方式实现了自动提取接处警文本中的居住地地址信息。
技术领域
本公开实施例涉及计算机技术领域,具体涉及基于正则表达式的接处警文本居住地地址提取方法和装置。
背景技术
目前,公安机关的110接警员在接警时会录入接警文本。处警员在处警结束后会录入处警文本。接处警文本即包括上述接警文本和处警文本。实践中,接处警文本中经常会涉及关于涉案人员居住地(例如,曾居住地、现居住地等)的描述。案情分析员可以根据接处警文本中的居住地地址信息,分析不同接处警文本中出现的相同或相近的居住地地址信息以期进行进一步处理。例如,可以通过相同或相近的居住地地址信息发现系列案件或关联案件。因此,提取接处警文本中的居住地地址信息是非常重要的。
然而,目前大都是采用人工提取接处警文本中的居住地地址信息,凭人工提取接处警文本中的居住地地址信息的人工成本较高且依赖于个人经验。
发明内容
本公开实施例提出了基于正则表达式的接处警文本居住地地址提取方法和装置。
第一方面,本公开实施例提供了一种基于正则表达式的接处警文本居住地地址信息提取方法,该方法包括:获取待提取居住地地址信息接处警文本;将待提取居住地地址信息接处警文本与居住地标识提取正则表达式匹配,得到居住地标识位置信息序列;将待提取居住地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;对于居住地标识位置信息序列中的每个居住地标识位置信息,执行以下居住地地址信息提取操作:将该居住地标识位置信息中的结束位置确定为目标结束位置;对于地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将待提取居住地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该居住地标识位置信息对应的居住地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中目标地址位置信息对应的编辑距离最小;将居住地标识位置信息序列中各居住地标识位置信息对应的居住地地址信息确定为待提取居住地地址信息接处警文本对应的居住地地址信息集合。
在一些实施例中,居住地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注居住地标识位置信息序列,标注居住地标识位置信息包括起始位置和结束位置,标注居住地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为居住地标识;用第一训练样本集合中标注居住地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;对于第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;基于第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为居住地标识提取正则表达式。
在一些实施例中,在第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:执行第一目标数目次第一正样本子集合生成操作以生成第一目标数目个第一正样本子集合,第一正样本子集合生成操作包括:在第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,N为对L除以M的商向下取整所得的整数,L是第一正样本集合中的第一正样本数量,M是大于等于2小于L的正整数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明亿科技有限公司,未经北京明亿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010307808.X/2.html,转载请声明来源钻瓜专利网。