[发明专利]一种基于BERT的多模型融合提取事件主体的方法在审
申请号: | 202010105995.3 | 申请日: | 2020-02-20 |
公开(公告)号: | CN111259987A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 李振;刘恒;赵兴莹;秦培歌;李勇辉 | 申请(专利权)人: | 民生科技有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
地址: | 101300 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 模型 融合 提取 事件 主体 方法 | ||
本发明涉及一种基于BERT的多模型融合提取事件主体的方法,属于数据处理技术领域。该方法包括:对爬取数据进行预处理,得到训练样本和预测样本;对训练样本和预测样本进行嵌入操作,得到BERT预训练网络的训练样本输入序列和预测样本输入序列;采用多个基于BERT预训练网络的不同复杂度的单模型,利用训练样本输入序列对所述单模型进行训练,并优化网络参数;将预测样本输入序列输入到经训练后的多个单模型,输出多个模型结果;对所述多个模型结果进行融合,得到预测样本的最终预测结果。本发明通过采用不同复杂度的模型,保证模型的多样化,调整参数进行训练,将多个模型的检测结果进行融合,进一步提升检测的准确率。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于BERT的多模型融合提取事件主体的方法。
背景技术
事件识别是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。面向金融领域的事件主体抽取任务属于事件抽取任务中的限定域事件抽取,是信息抽取和知识图谱构建的重要环节之一。“事件识别”的复杂性在于事件类型和事件主体的判断,只有发生特定事件类型的主体才是提取目标。
目前主要有两类方法:基于模式匹配的方法和基于机器学习的方法。
基于模式匹配的方法是指对事件主体的抽取是在一些模式的指导下进行的,所以模式准确性是影响整个方法性能的重要因素。该类方法依赖于文本的具体形式(语言、领域和文档格式等),获取模板的过程费时费力,具有很强的专业性,而且,制定的模式很难覆盖所有的事件类型,当语料发生变化时,需要重新获取模式。鉴于基于模式匹配的方法可移植性低、召回率差,基于机器学习的事件主体抽取成为主流方法。
基于机器学习的事件抽取方法的代表方法是基于有监督学习的事件抽取,即将事件主体抽取建模成一个序列标注问题,提取特征向量后再使用有监督的分类器进行回归。本文采用了基于机器学习的方法来从金融事件文本中抽取事件主体。
BERT(Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding)通过预训练技术,刷新了11项NLP任务的最优结果,将自然语言处理中的预训练技术发展到了普适的程度。BERT模型进一步增强了词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。因此,本文均采用BERT作为编码器,并在单个模型的结果上进行融合,进一步提升事件主体的提取准确度。
发明内容
针对现有技术的不足,结合最新技术BERT预训练网络编码,并使用多种网络结构解码,从而可以使用差异化较大的模型做融合,达到提取特定事件类型的主体的目的。
为实现上述目的,本发明提供了如下技术方案:一种基于BERT的多模型融合提取事件主体的方法,包括以下步骤:
步骤1:对爬取到的原始数据进行预处理,得到事件主体的训练样本和预测样本;
步骤2:对训练样本和预测样本进行嵌入操作,得到BERT预训练网络的训练样本输入序列和预测样本输入序列;
步骤3:采用多个基于BERT预训练网络的不同复杂度的单模型,利用训练样本输入序列对所述单模型进行训练,并优化网络参数;
步骤4:将预测样本输入序列输入到经训练后的多个单模型,输出多个模型结果;
步骤5:对所述多个模型结果进行融合,得到预测样本的最终预测结果。
进一步的,所述步骤1具体包括:
步骤11:去除爬取数据中不包含信息的无效字符。
步骤12:将经步骤11处理后的爬取数据分为训练样本和预测样本。
进一步的,所述步骤2具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于民生科技有限责任公司,未经民生科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010105995.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:油气最小混相压力确定方法及装置
- 下一篇:视频编码方法、装置、设备及存储介质