[发明专利]字段抽取引擎的生成方法及装置、电子设备、存储介质在审
申请号: | 202210226528.5 | 申请日: | 2022-03-09 |
公开(公告)号: | CN114625850A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 李维;秦海龙;林天兵;彭滢;穆啸天;刘郑勇 | 申请(专利权)人: | 上海弘玑信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/289 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 201240 上海市闵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字段 抽取 引擎 生成 方法 装置 电子设备 存储 介质 | ||
1.一种字段抽取引擎的生成方法,其特征在于,包括:
针对样例集中每一样例语料,生成与所述样例语料对应的样例规则,获得多个样例规则;
逐个选中每一样例规则,作为目标样例规则,并对所述目标样例规则进行泛化处理,直至所述目标样例规则完成泛化处理;
将完成泛化处理的目标样例规则作为字段抽取规则,获得多个字段抽取规则;
基于所述多个字段抽取规则解释或编译出规则模块,并获得基于所述规则模块的字段抽取引擎。
2.根据权利要求1所述的方法,其特征在于,所述生成与所述样例语料对应的样例规则,包括:
对所述样例语料进行分词处理,得到多个词节点;
基于所述样例语料中若干标注字段确定所述多个词节点中的字段左右边界,以及每一标注字段的字段标签,构造所述样例规则;
其中,所述标注字段为携带字段标签的字段,所述标注字段包括若干词节点。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标样例规则进行泛化处理,直至所述目标样例规则完成泛化处理,包括:
对所述目标样例规则进行一轮泛化处理;
在一轮泛化处理后,根据泛化处理后的目标样例规则和当前规则集,分别对开发集的语料和召回测试集的语料进行字段抽取,获得抽取结果;
根据所述抽取结果判断经过一轮泛化处理的目标样例规则是否通过质量测试,并根据判断结果进行下一轮泛化处理;
当所述目标样例规则达到终止泛化条件时,确定所述目标样例规则完成所有轮次泛化处理,并将完成所有轮次泛化处理的目标样例规则放入所述当前规则集。
4.根据权利要求3所述的方法,其特征在于,在所述针对样例集中每一样例语料,生成与所述样例语料对应的样例规则之前,所述方法还包括:
从目标业务领域的原始数据源获取第一指定数量的多个字符串,作为语料构建所述开发集;
从所述原始数据源获取第二指定数量的多个字符串,作为语料构建所述召回测试集;
从所述开发集中选取第三指定数量的多个语料,并对选择的多个语料进行标注,获得样例集。
5.根据权利要求3所述的方法,其特征在于,所述抽取结果包括所述开发集对应的第一抽取结果,以及所述召回测试集对应的第二抽取结果;
根据所述抽取结果判断经过一轮泛化处理的目标样例规则是否通过质量测试,所述方法还包括:
响应于比对指令,确定所述第一抽取结果与所述开发集的基准抽取结果之间的差异槽位信息点;
当所述差异槽位信息点的精确率满足预设精确率阈值,判断所述第二抽取结果中槽位信息点数量,超出所述召回测试集的基准槽位信息点数量的比例是否超过比例阈值;
若是,确定经过一轮泛化处理的目标样例规则通过质量测试,否则,确定经过一轮泛化处理的目标样例规则未通过质量测试。
6.根据权利要求5所述的方法,其特征在于,在所述确定经过一轮泛化处理的目标样例规则通过质量测试之后,所述方法还包括:
将所述第一抽取结果,作为所述开发集新的基准抽取结果;
将所述第二抽取结果中槽位信息点数量,作为所述召回测试集新的基准槽位信息点数量。
7.根据权利要求3所述的方法,其特征在于,所述根据判断结果进行下一轮泛化处理,包括:
当经过一轮泛化处理的目标样例规则通过质量测试时,对该轮泛化处理后的目标样例规则,进行下一轮泛化处理;
当经过一轮泛化处理的目标样例规则未通过质量测试时,对该轮泛化处理前的目标样例规则,进行下一轮泛化处理。
8.根据权利要求3所述的方法,其特征在于,所述对所述目标样例规则进行泛化处理,包括:
交替选择上下文泛化和词节点泛化作为每一轮泛化处理的路径,对所述目标样例规则进行多轮泛化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海弘玑信息技术有限公司,未经上海弘玑信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210226528.5/1.html,转载请声明来源钻瓜专利网。