[发明专利]一种多任务中文实体命名识别方法在审
申请号: | 202111405790.8 | 申请日: | 2021-11-24 |
公开(公告)号: | CN114091460A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 唐小勇;黄勇;许佳豪;王仕果;章登勇;张经宇 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 欧阳迪奇 |
地址: | 410114 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 中文 实体 命名 识别 方法 | ||
1.一种多任务中文实体命名识别方法,其特征在于,包括以下步骤:
步骤一,获取至少两个不同的已标注中文语句数据集,并进行预处理;
步骤二,构建包括双向编码器\解码器、双层长短期记忆网络层、注意力网络、隐藏层和条件随机场层的BERT--BiLSTM-CRF网络结构,其中编码器、解码器、双层长短期记忆网络层和条件随机场层均包括两个平行的相同结构,且两个双层长短期记忆网络层通过同一个注意力网络输出到同一个隐藏层;
步骤三,通过包括解码器和编码器的预训练部分BERT分别对不同的数据集进行特征抽取,获取词向量;
步骤四,将得到的词向量输入到双层长短期记忆网络层BiLSTM中,以通过包括遗忘门,记忆门和输出门在内的神经网络层来对词向量进行信息提取;
步骤五,让两个双层长短期记忆网络层的结果通过注意力网络输入到同一个隐藏层,其中注意力网络结合不同学习率来对两个结果进行全连接,再将隐藏层的输出结果输入到条件随机场层CRF,最后由CRF层约束,输出最优标签序列;
步骤六,重复步骤三-五,并对模型超参数进行调整以得到最优参数从而完成模型训练,然后将待识别的数据集输入到模型中以进行识别。
2.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤一中,预处理包括对数据集中的句子进行长度统一化处理。
3.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤一中,中文语句数据集是采用以下方式对数据集中的实体进行标注:当命名实体由一个字描述时,标记为Begin-named entity;当命名实体由超过一个字的词语描述时,以Begin-named entity标记开头的字,其他字标记成In-named entity;非命名实体的字词都标注成Out。
4.根据权利要求1所述的一种多任务中文实体命名识别方法,其特征在于,所述的步骤三中,进行特征抽取包括以下步骤:
对于数据集中的句子,首先通过分词处理得到分词文本序列,然后对分词序列的部分词进行全词Mask;然后再用特殊标记[CLS]标记序列即一个句子的开头,用特殊标记[SEP]标记序列的结尾;从而得到由Token Embedding、Segment Embedding和PositionEmbedding这3个部分组成的Embedding,此时将序列向量每个词的输出Embedding输入到双向编码器\解码器进行特征提取,最后得到包含上下文语义特征的序列向量(x1,x2,...,xn)。
5.根据权利要求4所述的一种多任务中文实体命名识别方法,其特征在于,对分词序列的部分词进行全词Mask,是指对分词序列中预设比例的词执行以下处理:将预设比例中80%的词替换成空白;10%的词替换成任意一个其他词;10%的词不变化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111405790.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种粮食水分多点在线检测仪
- 下一篇:一种即热式光波热水器