[发明专利]序列标注方法及系统、事件要素抽取方法及系统有效
申请号: | 202010252775.3 | 申请日: | 2020-04-02 |
公开(公告)号: | CN111159415B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 刘世林;罗镇权;张发展;李焕;曾途 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06N3/08 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 林辉轮 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列 标注 方法 系统 事件 要素 抽取 | ||
本发明涉及序列标注方法及系统、事件要素抽取方法及系统,其中,序列标注方法,增加BERT预训练模型的输入层并参与训练,并基于训练后得到的分类模型对待标注文本进行序列标注;增加的输入层为辅助分类识别的特征词表示层。本发明通过增加BERT预训练模型的输入层的方式,增加了模型序列标注识别时的参考特征量,因此可以提高序列标注的准确性。另外,本发明没有对BERT预训练模型的结构进行改变,因此无需请求提供BERT预训练模型的谷歌公司等对BERT模型进行改进,即本发明方法并不受基础模型提供公司的限制,也不存在任何不便利性的问题。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于BERT预训练模型的序列标注方法及系统、事件要素抽取方法及系统。
背景技术
序列标注就是对一个一维线性输入序列,给线性序列中的每个元素打上标签集合中的某个标签。所以,其本质上是对线性序列中每个元素根据上下文进行分类的问题。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。BERT (Bidirectional Encoder Representations fromTransformers) 是谷歌公司发布的基于双向Transformer的大规模预训练语言模型,该预训练模型能分别捕捉词语和句子级别的表示,高效抽取文本信息并应用于各种NLP任务。BERT预训练模型一般需要强大计算能力和大量的语料花费大量时间才能训练完成,所以一般由大型公司如谷歌公司等训练完成,其他用户只需要通过下载训练好的预训练模型微调(finetuning)使用。通过BERT进行序列标注时,一般通过加载预训练好的模型,进行微调后, BERT通过Softmax来预测每个 token 的标签,具有较高的准确率。也正是由于BERT的分类准确率较高,且只需要进行微调即可,因此BERT预训练模型成为了序列标注时序列标注的首选。
发明内容
本发明的目的在于提供一种基于BERT预训练模型的序列标注方法及系统,以及事件要素抽取方法及系统,可以进一步提高序列标注结果的准确性。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一方面,本发明实施例中提供了一种基于BERT预训练模型的序列标注方法,增加BERT预训练模型的输入层并参与训练,并基于训练后得到的分类模型对待标注文本进行序列标注;增加的输入层为辅助分类识别的特征词表示层。
上述方案中,通过增加一层或多层输入层,增加的输入层也会参与训练,且增加的输入是辅助分类识别的特征词表示层,即通过增加输入层引入了新的辅助分类识别的信息,因此可以提高序列标注结果的准确性。而且,无需向基础模型提供方请求模型结构改进或新增特征,因此不受基础模型提供方的限制,操作方便。
上述序列标注方法包括以下步骤:
基于指定的任务,对准备的文本语料进行人工标注,并对人工标注后的文本语料中的辅助分类识别的特征词进行标注;
将特征词表示层作为BERT预训练模型新增的输入向量层,并对每个向量初始化赋值,将标注后的文本语料送入BERT预训练模型进行微调,并将特征词表示层同时训练,通过反向传播的梯度进行变化,最终得到特征词表示层的向量矩阵以及训练好的分类模型;
将待标注文本输入训练好的分类模型进行推理,并将待分类文本中的所述辅助分类识别的特征词以所述向量矩阵索引输入,输出序列标注结果。
所述指定的任务为事件要素抽取任务,所述辅助分类识别的特征词为命名实体。基于不同的任务,辅助分类识别的特征词不同。
另一方面,本发明实施例提供了一种基于BERT预训练模型的事件要素抽取方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010252775.3/2.html,转载请声明来源钻瓜专利网。