[发明专利]基于BERT-FLAT的中文命名实体识别方法在审
申请号: | 202011201643.4 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112270193A | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 张璞;王重阳;刘华东;熊安萍 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06K9/62;G06N3/04 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert flat 中文 命名 实体 识别 方法 | ||
1.一种基于BERT-FLAT的中文命名实体识别方法,其特征在于,包括以下步骤:将任意中文句子输入训练好的实体识别模型中,模型输出训练集中每个句子的词性标注结果,得到命名实体识别结果,其中,实体识别模型先训练后使用,其训练过程如下:
S1、数据集预处理,得到预处理后的数据集,将预处理后的数据集按照2:1:1分为训练集、验证集和测试集;
S2、将训练集输入到BERT模型中进行处理,得到输出序列向量;
S3、将BERT层的输出作为字符嵌入Character embedding输入到Flat-Lattice模型进行编码,得到编码序列;
S4、将Flat-Lattice层的输出结果输入到CRF模型进行分词序列预测,得到每个单词的预测标签,对预测标签进行筛选,得到最优预测标签序列和初始实体识别模型;采用正向传播和反向传播修改、更新初始实体识别模型各层神经元的参数值以及连接权重,通过验证集确定参数的最佳值,最小化最优预测标签序列与真实标签序列之间的误差,得到训练好的实体识别模型;
S5、得到训练好的实体识别模型后,使用测试集对训练好的实体识别模型进行测试,评价实体识别的效果。
2.根据权利要求1所述的一种基于BERT-FLAT的中文命名实体识别方法,其特征在于,将训练集输入到BERT模型中进行处理包括:
S21、按照BERT模型的要求设定最大序列长度,根据此参数对输入序列进行填充Padding;
S22、进行分词处理,得到分词文本序列;
S23、随机选择分词文本序列的部分词进行掩码Mask操作;
S24、在序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔,再将序列向量输入到双向Transformer进行特征提取,得到含有丰富语义特征的序列向量。
3.根据权利要求1所述的一种基于BERT-FLAT的中文命名实体识别方法,其特征在于,将序列向量输入自注意力模块进行处理包括:自注意力模块中包含多头注意力机制,多头注意力机制函数表达式如下:
将多头注意力机制得到的不同Attention结果拼接起来,得到最终输出序列向量,如下式所示:
MultiHead(Q,K,V)=Concat(head1,head2,...,headh)Wo
headi=Attention(QWiQ,KWiK,VWiV)
其中,Attention(·)为单词的Attention分数归一化后的值,Q,K,V分别为查询向量,键向量,值向量,dk为键向量的维数;MultiHead(·)为得到的最终输出序列向量,headh为第h次投影得到的Attention值,h为投影的次数,Wo为附加的权重矩阵,Concat(·)为向量拼接,WiQ为Q向量训练权重矩阵,WiK为K向量训练权重矩阵,WiV为V向量训练权重矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011201643.4/1.html,转载请声明来源钻瓜专利网。