[发明专利]一种基于BERT与CNN层级连接的中文文本分类方法有效
申请号: | 201911302047.2 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111177376B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 马强;赵鸣博;孔维健;王晓峰;孙嘉瞳;邓开连 | 申请(专利权)人: | 东华大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N3/045 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 徐俊 |
地址: | 201600 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert cnn 层级 连接 中文 文本 分类 方法 | ||
本发明涉及一种基于BERT与CNN层级连接的中文文本分类的方法,主要用于解决中文文本的情感分析、核心句子识别、关系识别等文本分类问题。本发明中使用CNN模型与BERT模型进行层级连接,得到新的模型BERT‑CNN。BERT‑CNN模型由于加入CNN模型,可以对BERT模型提取到的句子特征进一步提取,获得更加有效的句子语义表示。因此,在文本分类任务中,可以获得更好的分类效果。
技术领域
本发明属于自然语言处理技术领域,特别涉及一种基于深度学习模型BERT与CNN层级连接的中文文本分类方法。
背景技术
随着经济和互联网的高速发展,越来越多的人会选择在网上发表各种言论。面对网络上大量的文本数据,如何高效的从这些数据中获得有使用价值的数据成为研究热点。问答机器人、搜索、机器翻译以及情感分析这些都是自然语言处理的关键应用领域,而这些技术都离不开文本分类技术,文本分类技术是这些技术的基础。正是因为文本分类技术是一项基础,对它的精确度要求也就较高。因此,这些年来,文本分类技术一直是一项研究热点也是一个难点。
随着机器学习、深度学习等领域的高速发展,文本分类再也不用依赖于耗时耗力的人工,从而转向自动文本分类技术。并且随着正确率的不断提升,在情感分析、垃圾文本识别上已经得到了广泛的应用。但是,还存在一些领域效果不佳,比如违法广告识别等以及情感分析和垃圾文本识别领域还迫切需要更高的准确率。
目前,文本分类技术中深度学习技术取得的效果较好,但是深度学习技术的效果依赖于对句子的语义特征提取。传统的深度学习模型依赖于对句子中的词或者字进行量化作为模型输入,但是这种方法有时候会受量化结果影响,因此,对不同的领域的文本都需要单独做量化,这样相对来说还是会费时费力。而本文引入的模型不但在效果上更加好,而且不需要再针对各个领域对词或者字进行量化。
发明内容
本发明的目的是:进一步提高中文文本分类的效果。
为了达到上述目的,本发明的技术方案是提供了一种基于BERT与CNN层级连接的中文文本分类方法,其特征在于,包括以下步骤:
步骤1、通过大量公开的中文文本数据集对BERT模型进行预训练,得到BERT模型中的所有的参数并保存,BERT模型由12层transformer编码器构成;
步骤2、使用CNN模型与BERT模型进行层级连接,进行层级连接时,将BERT模型12层结构中每一层的第一个位置的输出作为CNN模型的输入,输入的宽度为12,得到BERT-CNN模型,在BERT-CNN模型中,宽度为12的输入矩阵经过CNN模型进行卷积和最大池化操作得到新的更加有效的句子语义特征向量,然后将这个句子语义特征向量输入一个全连接层,最后再经过分类器;
步骤3、对BERT模型部分的参数进行初始化,初始化的参数值即之前预训练得到的参数,而CNN模型部分的参数初始化采用满足正态分布随机产生;
步骤4、对分类训练集进行数据预处理;
步骤5、通过预处理过的数据集再训练BERT-CNN模型。
优选地,步骤1中,对BERT模型进行预训练的中文文本数据集包括句子内部预测训练集以及句子对是否连续训练集,其中:
句子内部预测训练集的构造过程包括以下步骤:
将数据按句子切分后,随机将句子中的15%的词遮住。这15%的词中80%用[mask]代替,10%的词仍用原来的词,剩余的10%的词用随机一个词代替,并在句子的起始位置拼接[CLS]字符,通过这种方式构成的新句子作为BERT模型输入去预测被遮住的15%的词;
句子对是否连续训练集的过程包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911302047.2/2.html,转载请声明来源钻瓜专利网。