[发明专利]基于BERT的文本数据处理方法及装置在审
申请号: | 202110261106.7 | 申请日: | 2021-03-10 |
公开(公告)号: | CN112989041A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 张诏泽 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 贾磊;李辉 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 文本 数据处理 方法 装置 | ||
本发明公开了一种基于BERT的文本数据处理方法及装置,其中该方法包括:获取待处理文本数据;将待处理文本数据的原始词向量,输入到预先训练好的BERT语言模型中,输出待处理文本数据中各个字或词融合上下文信息的向量表示结果;将BERT语言模型输出的向量表示结果,与待处理文本数据中除上下文信息之外的其他结构化特征进行特征融合,得到融合后的特征向量;将融合后的特征向量,输入到预先训练好的机器分类模型中,输出待处理文本数据的分类结果。本发明能够大大提高文本分类的准确性。将本发明实施例中提供的文本数据处理方法,应用于审核业务系统,能够降低无效告警量,减少人工成本。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于BERT的文本数据处理方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在自然语言处理领域,word2vec或GloVe等上下文无关模型为词汇表中的每个单词生成一个词向量表示。但由于不同的单词,在不同的语义环境下,含义可能差别很大,例如,对于“bank”一词,根据上下文语境不同,可能表示“银行”,也可能表示“岸边”。若将某个词表示为相同的向量,这样显然是不合理的。
基于变换器的双向编码器表示技术(Bidirectional Encoder Representationsfrom Transformers,BERT)是一种深度双向的、无监督的语言表示,仅使用纯文本语料库进行预训练的模型。该模型充分考虑单词出现时的上下文信息,能够避免单词歧义问题。
银行审核业务系统中,会出现大量告警数据,现有技术中,通常是将新的告警数据与历史告警数据进行匹配,从而根据匹配的历史告警数据,确定是否针对新的告警数据进行告警。在将新的告警数据与历史告警数据进行匹配时,涉及到文本数据的比对,因而,如何准确识别文本内容,能够大大提高审核业务系统的告警准确率,避免大量无效告警。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例中提供了一种基于BERT的文本数据处理方法,用以解决现有审核业务系统存在匹配效率低、无效告警多的技术问题,该方法包括:获取待处理文本数据;将所述待处理文本数据的原始词向量,输入到预先训练好的BERT语言模型中,输出所述待处理文本数据中各个字或词融合上下文信息的向量表示结果;将所述BERT语言模型输出的向量表示结果,与所述待处理文本数据中除上下文信息之外的其他结构化特征进行特征融合,得到融合后的特征向量;将融合后的特征向量,输入到预先训练好的机器分类模型中,输出所述待处理文本数据的分类结果。
进一步地,所述机器分类模型为二分类模型。
进一步地,所述待处理文本数据为审核业务系统中的告警报文数据;所述二分类模型的分类结果包括:有效告警和无效告警。
进一步地,所述方法还包括:获取第一样本数据;根据所述第一样本数据,对BERT模型学习,训练得到所述BERT语言模型。
进一步地,所述方法还包括:获取第二样本数据;根据所述第二样本数据,对神经网络模型学习,训练得到所述机器分类模型。
进一步地,采用多模态特征融合方法,将所述BERT语言模型输出的向量表示结果,与所述待处理文本数据中除上下文信息之外的其他结构化特征进行特征融合,得到融合后的特征向量。
进一步地,所述多模态特征融合方法包括如下任意之一:基于原始数据的融合、基于抽象特征的融合和基于决策结果的融合。
进一步地,所述多模态特征融合方法包括如下任意之一:数据级别的融合、判定级别的融合和组合融合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110261106.7/2.html,转载请声明来源钻瓜专利网。