[发明专利]一种改进BERT训练模型及一种命名实体识别方法、系统在审
申请号: | 202011240770.5 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112560484A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 王忠璐;刘健博 | 申请(专利权)人: | 武汉数博科技有限责任公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30 |
代理公司: | 北京思格颂知识产权代理有限公司 11635 | 代理人: | 吕露;杨超 |
地址: | 430000 湖北省武汉市东湖新*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 bert 训练 模型 命名 实体 识别 方法 系统 | ||
本发明提出了一种改进BERT训练模型及一种命名实体识别方法、系统,该改进BERT训练模型包括传统BERT模型、强化位置编码层、分类层。强化位置编码层用于提取各字符任务向量中的位置向量,将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;分类层,用于将得到的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出第三语义特征向量,并用预设标注规则对第三语义特征向量进行分类,确定命名实体标签。本发明强化了位置编码信息,能避免传统BERT训练模型在关系抽取、语义分析的错误。
技术领域
本发明涉及自然语言处理识别技术领域,特别涉及一种改进BERT训练模型及一种命名实体识别方法、系统。
背景技术
随着经济的发展,各行各业的新生事物逐渐增多,例如微博中的新生词汇、化学中合成的新的物质、汽车公司新出的车系、科技公司开发的软件应用等,这些新生词汇在自然语言中的表达出现多样性、歧义性、时效性的特征,因此需要一种中文文本的数据结构化处理方法,能自动提取文本中的命名实体,让其在海量文本数据中发挥应有的价值。准确提取命名实体的前提是进行准确的命名实体识别(Named Entity Recognition,简称NER),即指识别文本中具有特定意义的实体,主要包括人名、地名、公司名、时间、专有名词等。命名实体是文本中的细粒度元素,是重要的信息表达载体,是正确理解和处理文本信息的基础。中文命名实体识别是自然语言处理领域中的基本任务之一,其主要任务是识别出文本中出现的名字实体和有意义的短语并加以归类,命名实体识别准确率和召回率的高低,直接决定着关系抽取、语义分析等语言理解全过程的性能。
2018年底,谷歌发布的论文《Pre-training of Deep BidirectionalTransformers for Language Understanding》提出了BERT(Bidirectional EncoderRepresentations from Transformers)模型,作为Word2Vec(用来产生词向量的相关模型)的替代者,其使用了Transformer作为算法的主要框架,Transformer能更彻底的捕捉语句中的双向关系,本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示。
然而实际应用中发现,经过多层的Transformer处理,基于BERT的预训练模型输出向量中的位置编码信息已经弱化,从而导致一些依赖位置特征的实体标签预测错误。例如句子“另据阿尔及利亚主要日报《祖国报》报道”,预测出的实体是阿尔及利亚,国家、祖国报,游戏,其中祖国报的正确标签应该是书籍而不是游戏。这个错误是因为数据集中很多游戏实体带书名号,模型过度地学习了前后书名号地特征,而没有学习到与前面国家标签的依赖关系。再如,根据BIO标注规则(B-Begin表示开始,I-Intermediate表示中间,O-other表示与标注无关),第一个位置标签应该为B或者O,但有时却被错误的标签为I。由此可见,如果不注意实体标签与句子中的相对位置、绝对位置,则容易出现关系抽取、语义分析的错误。
发明内容
鉴于上述问题,有必要提出一种改进BERT训练模型以解决或部分解决上述问题,本发明提出的技术方案如下:
本发明提出了一种改进BERT训练模型,所述改进BERT训练模型包括传统BERT模型、强化位置编码层,以及分别与传统BERT模型、强化位置编码层输出端连接的分类层,其中:
所述传统BERT模型包括输入层、若干Transformer层、输出层,所述输入层用于对输入的按字符切分的任务句子进行向量表示,生成与各字符对应的任务向量,所述任务向量至少包括字向量、位置向量;所述Transformer层用于训练任务向量得到第一语义特征向量,所述输出层用于输出第一语义特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉数博科技有限责任公司,未经武汉数博科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011240770.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:油管通管装置和方法
- 下一篇:一种用于医疗器械的标识编码方法