[发明专利]基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法在审
申请号: | 202210030824.8 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114510569A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 陈晓兵;康丽;卢佳琪;包涵;张润;张冰莹 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 223100 江苏省淮安市洪泽区东七街三号高*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 chinesebert 模型 注意力 机制 化工 突发事件 新闻 分类 方法 | ||
本发明公开了一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,首先对文本数据进行文本预处理;然后,对词语进行注意力机制处理,提取单词和子序列的信息依赖关系;与此同时,基于改进ChineseBERT预训练模型进行拼音信息和字符信息的提取;之后对拼音信息和字符信息进行矩阵融合,同时加上位置信息,保持上下文语义的完整性,通过经典的Bert模型进行处理,使用参数共享机制,得到最终的信息特征向量;对得到的上下文语义向量和信息依赖关系向量融合,作为CNN的输入,得到最终的化工新闻分类结果。本发明充分优化了文本的拼音字符语义信息;提取词语的依赖关系和局部依赖关系的问题;通过Bert模型参数共享机制降低时间复杂度的问题,有效的提高文本分类的精确度。
技术领域
本发明属于文本分类和自然语言处理技术领域,具体涉及一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法。
背景技术
ChineseBERT模型主要是融合字形与拼音信息的中文预训练模型,模型将字符嵌入(char embedding)、字形嵌入(glyph embedding)和拼音嵌入(pinyin embedding)进行拼接起来;然后通过融合层,得到一个d维融合嵌入(fusion embedding);最后将其与位置嵌入(position embedding)、片段嵌入(segment embedding)相加,形成Transformer-Encoder层的输入。由于预训练时没有使用NSP任务,因此模型结构省略了片段嵌入(segment embedding)。
MLP多层感知机,也叫做人工神经网络,除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构,多层感知机层与层之间是全连接的。多层感知机最底层是输入层,中间是隐藏层,最后是输出层。
Attention机制就是对输入的每个元素考虑不同的权重参数,从而更加关注与输入的元素相似的部分,而抑制其它无用的信息。其最大的优势就是能一步到位的考虑全局联系和局部联系,且能并行化计算,这在大数据的环境下尤为重要的。
在面对新闻文本分类问题的时候,研究者们会选择将语句相似度、神经网络等融入到文本分类中,忽略了文本数据训练时的时间复杂度,中文字符拼音信息,深层次文本特征的提取问题以及对应数据的语义信息。因此,通过改进ChineseBERT预训练模型的架构和共享Bert模型的参数,来提高模型的鲁棒性和降低时间复杂度,同时结合连级注意力机制得到字符到子序列上下文特征信息,从而解决中文化工突发事件新闻文本分类的问题,进而提高文本分类的准确度。
现有的文本分类方法中,有的只关注分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,没有考虑文本信息的实体特征信息;有的只关注主题语义特征,没有考虑文本的全局特征信息。也有的方法主要是进行特征的简单提取,没有考虑使用预训练模型,还有长依赖项的关系。
在面对化工突发事件新闻文本分类问题时,已有论文主要基于传统的特征提取方法和主题识别方法,其次基于深度神经网络分类模型等,但是关于文本分类还有很多的问题有待解决:化工新闻信息在训练时的时间复杂度、空间复杂度和模型的鲁棒性问题;特征提取的信息不能充分的刻画文本的全文信息,有些语义是不同的,例如同字异义的,全局的上下文信息不够全面现象;对于ChineseBERT这个中文预训练模型,在预训练时候,对于字形信息,需要通过不同的字体的实例化图像进行处理,之后还需要进行识别学习和扁平化操作,占用很多的空间复杂度;并且模型是从头训练,在向量层需要,但是在transformer-encoder层也是从头训练,导致时间复杂度增加。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210030824.8/2.html,转载请声明来源钻瓜专利网。