[发明专利]字段抽取引擎的生成方法及装置、电子设备、存储介质在审

专利信息
申请号: 202210226528.5 申请日: 2022-03-09
公开(公告)号: CN114625850A 公开(公告)日: 2022-06-14
发明(设计)人: 李维;秦海龙;林天兵;彭滢;穆啸天;刘郑勇 申请(专利权)人: 上海弘玑信息技术有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F40/289
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 何明伦
地址: 201240 上海市闵*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 字段 抽取 引擎 生成 方法 装置 电子设备 存储 介质
【说明书】:

本申请提供一种字段抽取引擎的生成方法及装置、电子设备、存储介质,方法包括:针对样例集中每一已标注的样例语料,生成与所述样例语料对应的样例规则,获得多个样例规则;逐个选中每一样例规则,作为目标样例规则,并对所述目标样例规则进行泛化处理,直至所述目标样例规则完成泛化处理;当每一样例规则均完成泛化处理,获得多个字段抽取规则;基于所述多个字段抽取规则解释或编译出规则模块,并获得基于所述规则模块的字段抽取引擎。本申请方案,为NLP信息抽取应用在各种缺乏标注数据的业务场景提供了一种快捷的解决方案,克服了主流监督学习方案依赖大规模标注数据的知识瓶颈,也大大减轻了纯手工高代码开发的时间成本。

技术领域

本申请涉及自然语言处理技术领域,特别涉及一种字段抽取引擎的生成方法及装置、电子设备、计算机可读存储介质。

背景技术

自然语言处理(Natural Language Processing,NLP)系统包含两大类:一类是机器学习系统,另一类是传统的规则系统。自然语言处理系统可以应用于在多个领域的信息抽取任务。例如,智能助理对话系统的一项关键任务是问句理解,包括识别问句的意图(intent)以及抽取问句中的相关角色槽位(role slots)。从信息抽取的角度来看,抽取角色槽位就是字段抽取,识别意图就是问句分类。示例性的,对于订票方面的问句,智能助理可从问句中抽取如下槽位信息点(也就是技能开发中所称的“角色槽位”):时间(time)、出发地(FromLocation)、目的地(ToLocation)、交通方式(VehicleType)等;可识别的意图包括:订票(Booking)、退票(Canceling)等。对于音乐方面的问句,智能助理可从问句中抽取如下槽位信息点:歌唱家(Singer)、歌名(Song)、音乐类型(MusicType)等;可识别的意图包括:播放(PlayMusic)、停止(Stop)等。

字段抽取包括两个子任务,一是确定字段的左右边界,二是为字段赋予一个标签(例如角色槽位)。为应对字段抽取任务,通常可组织或外包足量的标注任务,然后用监督学习的算法训练机器学习模型。标注工作在定义标注规范、培训标注人员、手工标注、标注质量控制等环节需耗费大量人力成本和时间成本。而实际应用场景中,涉及字段抽取的场景非常多,单就智能助理来看,问句包括问天气、问音乐、问股票、问时间、问地点等成千上万场景,针对每一场景必须单独标注数据,需要投入大量资源。

如果通过规则系统处理字段抽取任务,对于每一个需要抽取的字段,也需要手工编写大量规则代码才能实现,同样需要耗费大量人力成本和时间成本。

发明内容

本申请实施例的目的在于提供一种字段抽取引擎的生成方法及装置、电子设备、计算机可读存储介质,用于在较低人力成本和时间成本的前提下,生成执行字段抽取任务的字段抽取引擎。

一方面,本申请方案提供了一种字段抽取引擎的生成方法,包括:

针对样例集中每一样例语料,生成与所述样例语料对应的样例规则,获得多个样例规则;

逐个选中每一样例规则,作为目标样例规则,并对所述目标样例规则进行泛化处理,直至所述目标样例规则完成泛化处理;

将完成泛化处理的目标样例规则作为字段抽取规则,获得多个字段抽取规则;

基于所述多个字段抽取规则解释或编译出规则模块,并获得基于所述规则模块的字段抽取引擎。

在一实施例中,所述生成与所述样例语料对应的样例规则,包括:

对所述样例语料进行分词处理,得到多个词节点;

基于所述样例语料中若干标注字段确定所述多个词节点中的字段左右边界,以及每一标注字段的字段标签,构造所述样例规则;

其中,所述标注字段为携带字段标签的字段,所述标注字段包括若干词节点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海弘玑信息技术有限公司,未经上海弘玑信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210226528.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top