[发明专利]基于正则表达式的接处警文本居住地地址提取方法和装置在审
申请号: | 202010307808.X | 申请日: | 2020-04-17 |
公开(公告)号: | CN113111233A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 彭涛;张鹏;杨欣雨 | 申请(专利权)人: | 北京明亿科技有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/387;G06Q50/26 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100021 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 接处警 文本 居住 地址 提取 方法 装置 | ||
1.一种基于正则表达式的接处警文本居住地地址信息提取方法,包括:
获取待提取居住地地址信息接处警文本;
将所述待提取居住地地址信息接处警文本与居住地标识提取正则表达式匹配,得到居住地标识位置信息序列;
将所述待提取居住地地址信息接处警文本与地址提取正则表达式匹配,得到地址位置信息序列;
对于所述居住地标识位置信息序列中的每个居住地标识位置信息,执行以下居住地地址信息提取操作:将该居住地标识位置信息中的结束位置确定为目标结束位置;对于所述地址位置信息序列中的每个地址位置信息,将该地址位置信息中的起始位置减去所述目标结束位置所得的差确定为与该地址位置信息对应的编辑距离;将所述待提取居住地地址信息接处警文本中目标地址位置信息中起始位置和结束位置间的文本确定为与该居住地标识位置信息对应的居住地地址信息,其中,在对应的编辑距离为正数的各地址位置信息中所述目标地址位置信息对应的编辑距离最小;
将所述居住地标识位置信息序列中各居住地标识位置信息对应的居住地地址信息确定为所述待提取居住地地址信息接处警文本对应的居住地地址信息集合。
2.根据权利要求1所述的方法,其中,所述居住地标识提取正则表达式是通过如下第一训练步骤预先训练得到的:
获取第一训练样本集合和第一测试样本集合,其中,第一训练样本和第一测试样本均包括历史接处警文本和相应的标注居住地标识位置信息序列,标注居住地标识位置信息包括起始位置和结束位置,标注居住地标识位置信息用于表征历史接处警文本中起始位置和结束位置之间为居住地标识;
用所述第一训练样本集合中标注居住地标识位置信息序列不为空的各第一训练样本生成第一正样本集合;
在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合;
对于所述第一目标数目个第一正样本子集合中的每个第一正样本子集合,基于该第一正样本子集合中各第一正样本,生成与该第一正样本子集合对应的候选正则表达式;
基于所述第一测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述居住地标识提取正则表达式。
3.根据权利要求2所述的方法,其中,所述在所述第一正样本集合中选取第一正样本组成第一目标数目个第一正样本子集合,包括:
执行所述第一目标数目次第一正样本子集合生成操作以生成所述第一目标数目个第一正样本子集合,所述第一正样本子集合生成操作包括:在所述第一正样本集合中随机选取N个第一正样本组成第一正样本子集合,其中,所述N为对L除以M的商向下取整所得的整数,所述L是所述第一正样本集合中的第一正样本数量,所述M是大于等于2小于所述L的正整数。
4.根据权利要求1所述的方法,其中,所述地址提取正则表达式是通过如下第二训练步骤预先训练得到的:
获取第二训练样本集合和第二测试样本集合,其中,第二训练样本和第二测试样本均包括历史接处警文本和相应的标注地址位置信息序列,其中,标注地址位置信息包括起始位置和结束位置,标注地址位置信息用于表征历史接处警文本中起始位置和结束位置之间为地址;
用所述第二训练样本集合中标注地址位置信息序列不为空的各第二训练样本生成第二正样本集合;
在所述第二正样本集合中选取第二正样本组成第二目标数目个第二正样本子集合;
对于所述第二目标数目个第二正样本子集合中的每个第二正样本子集合,基于该第二正样本子集合中各第二正样本,生成与该第二正样本子集合对应的候选正则表达式;
基于所述第二测试样本集合对所生成的各个候选正则表达式进行测试以确定与每个所生成的候选正则表达式对应的准确率;
将所生成的各候选正则表达式中准确率最高的候选正则表达式确定为所述地址提取正则表达式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明亿科技有限公司,未经北京明亿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010307808.X/1.html,转载请声明来源钻瓜专利网。