[发明专利]一种基于深度神经网络的信息抽取方法有效

专利信息
申请号: 202210719139.6 申请日: 2022-06-23
公开(公告)号: CN115130462B 公开(公告)日: 2023-09-01
发明(设计)人: 王亚强;李凯伦;唐聃;舒红平 申请(专利权)人: 成都信息工程大学
主分类号: G06F40/216 分类号: G06F40/216;G06N3/0442;G06N3/045;G06N3/047;G06N3/084;G06N3/088;G06N3/09
代理公司: 北京元本知识产权代理事务所(普通合伙) 11308 代理人: 曹广生
地址: 610225 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 神经网络 信息 抽取 方法
【说明书】:

发明涉及自然语言序列标注技术领域,公开了一种基于深度神经网络的信息抽取方法,BERT‑BiLSTM‑CRF模型能够解决信息抽取任务中存在的一词多义与同物异名问题,以及信息抽取任务中存在的待抽取信息长短不统一和待抽取信息有错别字、描述简短等问题,通过批量过采样的方式增加批量中少数类样本信息的数量,使得模型在训练的过程中可以有效学习到少数类样本信息的特征,从而在一定程度上解决数据类别分布不均衡的问题,使得少数类样本信息的抽取效果有显著提升。

技术领域

本发明属于自然语言处理下的序列标注领域,涉及一种信息抽取的方法。

背景技术

信息抽取属于自然语言处理领域下的序列标注任务。过去常常使用统计机器学习方法去解决序列标注任务,其中最常用的就是条件随机场(Conditional random field,CRF)。CRF优于其他一般的统计学习方法,如最大熵马尔可夫模型(Maximum entropyMarkov model,MEMM)、隐马尔可夫模型(Hidden Markov model,HMM)。CRF是一种通过最大化条件概率来训练模型的无向图模型,其可以充分地利用数据中的特征,在所有状态上进行全局归一化,从而求得全局的最优解。解决了HMM的独立假设问题和MEMM的标注偏置问题。但是,CRF模型和其他统计机器学习模型一样,无法自动地从文本中提取丰富的语义特征,在特征提取方面仍然需要大量的人工参与。

近年来,基于预训练语言模型的深度神经网络被应用于序列标注任务。其中,预训练语言模型可以自动地从文本序列中提取出丰富的词义特征、语义级特征以及语法结构特征,使得其在序列标注任务上取得了相当理想的效果。但是,这些方法往往是基于类别分布均衡的数据集进行训练的,而真实地统计数据往往存在数据类别分布不均衡的问题,即:某一类信息的数量远少于其他信息的数量。这使得深度神经网络模型会拟合于数量较多的类别样本,忽略数量较少的类别样本的特征,从而影响模型的性能。

目前,解决数据类别分布不均衡问题,主要有三种数据级解决方法:

(1)过采样:通过不同的方法在数据集中尽可能多地合成现有的少数类别样本以平衡数据集的数据类别分布。

(2)欠采样:通过随机采样、k-近邻、聚类、分类决策边界敏感样本识别等方法对多数类样本进行选择性采样。从而过滤掉部分多数类样本,使得数据集中数据类别分布均衡。

(3)过采样与欠采样相结合的混合采样方法:通过将过采样的样本合成和欠采样的样本抽取相融合,构造类别均衡的数据集。

但是,在对复杂模型进行训练的过程中,对数量较多的类别样本对进行欠采样,将多数类样本的数量和少数类样本的数量均衡到相同水平。这会在一定程度上导致数据集中部分多数类样本的特征缺失,使得模型在拟合数据集时,无法充分学习到多数类样本数据的特征,从而影响模型性能。

发明内容

为解决上述问题,本发明采用BERT-BiLSTM-CRF模型,采用批量过采样的方式,提供了一种可全面、准确、均衡地抽取信息的方法。

本发明的技术方案如下:

一种基于深度神经网络的信息抽取方法,包括无监督域内继续预训练和基于批量过采样的有监督训练;

上述信息为中医临床四诊信息;

具体地,包括以下步骤:

S1:对开放域预训练语言模型BERT的掩码语言模型(Masked LanguageModel,MLM)进行无监督域内继续预训练;

S2:将S1中域内继续预训练之后的BERT模型与BiLSTM-CRF模型组

合成BERT-BiLSTM-CRF模型;

S3:对BERT-BiLSTM-CRF模型进行有监督训练;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210719139.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top