[发明专利]基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法在审
申请号: | 202210030824.8 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114510569A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 陈晓兵;康丽;卢佳琪;包涵;张润;张冰莹 | 申请(专利权)人: | 淮阴工学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 223100 江苏省淮安市洪泽区东七街三号高*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 chinesebert 模型 注意力 机制 化工 突发事件 新闻 分类 方法 | ||
1.一种基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,包括以下步骤:
(1)将化工突发事件新闻文本数据D进行文本预处理,得到新闻文本数据D1;
(2)通过word2vec模型处理化工突发文本数据D1,得到文本特征向量R1,将词向量R1输入到WordAttention模型中,得到新的词依赖特征信息H1,再将词依赖特征信息H1输入到SeqAttention模型,得到子序列特征信息H2;
(3)通过对文本数据D1进行开源拼音包处理,得到对应的拼音序列,之后输入到MLP,经过最大池化层输出拼音向量H3,对预处理后的文本进行one-hot编码,得到字符向量H4,与拼音向量H3进行矩阵化嵌入,得到2维矩阵向量R3;
(4)将矩阵特征信息R3与位置向量信息R4进行整合得到特征信息H5,输入H5至Bert预训练模型中,得到对应的特征信息H6;
(5)将步骤(2)中的上下文特征信息H2与步骤(4)中的语义特征信息H6进行整合,输入到CNN模型中,得到最终的文本分类结果。
2.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(1)包括以下步骤:
(11)定义化工突发事件新闻文本数据集为D,定义Text为单个文本数据,定义id,title,label分别为单个文本序列号,数据的标题,文本标签,并且满足关系Text={id,title,label},D={Text1,Text2,…,Texti,…,Textn},Texti为D中第i个文本信息数据,其中,n=len(D)为D中文本数量,变量i∈[1,n];
(12)定义处理后的化工突发事件文本数据集为D1,D1={Text1,Text2,…,Textj,…,Textm},Textj为D1中第j个文本信息数据,其中,m=len(D1)分别为D1中文本数量,变量j∈[1,m];
(13)读取数据集D,遍历整个数据集;
(14)如果title==null,执行(15),否则执行(16);
(15)删除对应行数据;
(16)根据停用词表去除一些无用的字符;
(17)保存预处理后的文本数据集D1。
3.根据权利要求1所述的基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法,其特征在于,所述步骤(2)包括以下步骤:
(201)读取预处理后的文本数据集D1;
(202)定义词特征向量集R1;
(203)通过word2vec模型进行数据分词处理,由word2vec模型进行训练得到文本词特征向量
(204)保存词特征向量R1,并且满足为数据向量集中第i个词特征向量,其中,变量i∈[1,a],a为分词后词向量的数量;
(205)定义基于注意力机制的词依赖特征向量H1;
(206)将词特征向量R1,输入到Attention机制中,得到基于注意力的词依赖特征向量其中表示文本中的第j个词依赖特征向量,满足变量j∈[1,b],b为词依赖特征向量的数量,其中的Attention机制的输入与调整方法为,使用softmax归一化,进行权重矩阵Wf调节,之后乘V,其中,dk为一个Q和K向量的维度,为尺度标量因子,分别代表query,key,value;
(207)定义循环变量k,用来学习第一级注意力机制的词特征向量H1,k初始值为1;
(208)定义基于注意力机制的子序列依赖特征向量H2;
(209)如果k≤b则执行(210),否则执行(212);
(210)将词依赖特征向量H1,输入到Attention机制中,得到基于注意力的子序列依赖特征向量其中表示文本中的第t个子序列依赖特征向量,满足变量t∈[1,c],c为子序列依赖特征向量的数量;
(211)k=k+1;
(212)输出并保存二级注意力机制的特征向量H2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210030824.8/1.html,转载请声明来源钻瓜专利网。