[发明专利]一种结合正则表达式和神经网络的自然语言任务处理方法和装置在审

申请号：	201911006241.6	申请日：	2019-10-22
公开（公告）号：	CN110909864A	公开（公告）日：	2020-03-24
发明（设计）人：	叶元;罗炳峰;冯岩松;贾爱霞;赵东岩	申请（专利权）人：	北京大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06F16/35
代理公司：	北京君尚知识产权代理有限公司 11200	代理人：	邱晓锋
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合正则表达式神经网络自然语言任务处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种结合正则表达式和神经网络模型的自然语言任务处理方法和装置。本方法为：1)给定一个自然语言相关的任务，针对该任务涉及的具体领域，获取正则表达式形式的领域知识，得到正则表达式集合；2)针对该任务选择一个基础的能够解决该任务的神经网络模型；3)在神经网络模型的训练过程中引入正则表达式集合中蕴含的领域知识，从而提升神经网络模型针对该任务的性能，正则表达式和神经网络模型的结合可以在不同层面上进行，包括输入层，模块层和输出层。本发明能够基于正则表达式形式的领域知识对神经网络模型的特定模块进行微调，并且辅助神经网络的训练，从而提升神经网络模型在该任务上的性能。

技术领域

本发明属于自然语言处理领域，涉及一种结合正则表达式和神经网络的自然语言任务处理方法和装置，能够同时利用正则表达式中蕴含的人对于目标任务的领域知识，以及神经网络强大的泛化能力，在神经网络训练过程中逐步从正则表达式中学习相关的领域知识，进而提高模型在相关任务上的性能。

背景技术

随着机器学习和人工智能技术的发展，人们对于大量的带标注数据的需求越来越高，然而标注数据的获取成本十分昂贵，如何能够有效地利用领域知识来辅助神经网络的训练，进而减少对于大量标注数据的需求，便成为一项非常重要的问题。

正则表达式是在自然语言处理相关任务中被广泛采用的一项技术，其应用领域包括模式匹配、句子分类和序列标注等。作为一个基于人工规则的技术，它表示紧凑、可解释性强、可调整性强，并且其编写过程并不依赖于大量的训练数据。因此，它在工业界中得到了广泛的应用，尤其是在可用的训练数据十分有限的情况下。

神经网络一般具有大量的需要学习的参数，训练一个神经网络模型需要大规模的标注数据，是一种数据驱动的方法。然而在实际问题中，尤其是在开辟新的领域时，常常会遇到训练数据稀缺的问题。因此，需要利用少量标注数据中提取出的领域知识来辅助神经网络的训练。

发明内容

本发明的目的是提供一种结合正则表达式和神经网络，进而提高神经网络模型在相关任务上的性能的方法和装置。即对于一个自然语言处理相关的任务(包括分类任务和序列标注任务、排序任务、生成任务等)，假设已经获取了该任务的一些正则表达式形式的领域知识，则能够通过对神经网络模型的特定模块进行微调，并且利用正则表达式中蕴含的领域知识来辅助神经网络的训练，从而提升神经网络模型在该任务上的性能，特别是在训练数据较少的情况下。

为了达到上述目的，本发明的技术方案为：

一种结合正则表达式和神经网络的自然语言任务处理方法，包括以下步骤：

(1)给定一个自然语言相关的任务，针对该任务涉及的具体领域，获取正则表达式形式的领域知识，得到正则表达式集合Re；

(2)针对该任务选择一个基础的能够解决该任务的神经网络模型M；

(3)在模型M的训练过程中引入正则表达式集合Re中蕴含的领域知识，从而提升模型M针对该任务的性能。正则表达式和神经网络模型M的结合可以在不同层面上进行，包括输入层，模块层和输出层。具体的结合方法在后面会进行详细的介绍。

下面进一步说明本发明方法的具体步骤：

在步骤(1)中，领域知识的来源既可以是领域专家总结的知识，也可以是根据少量的精标注数据获取的领域知识，或者通过某种规则提取器自动生成的领域知识。同时，因为神经网络对噪声具有较高的容忍度，可以使用多种正则表达式形式的领域知识，而不只是高精度的正则表达式蕴含的领域知识。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911006241.6/2.html，转载请声明来源钻瓜专利网。