[发明专利]一种实体识别模型的训练方法及装置在审
申请号: | 202010016766.4 | 申请日: | 2020-01-08 |
公开(公告)号: | CN111222337A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 于文才;杜志诚;杜明本;钟琴隆;崇学伟;于雪磊;闫晗;杨红超 | 申请(专利权)人: | 山东旗帜信息有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/126;G06N3/08 |
代理公司: | 济南千慧专利事务所(普通合伙企业) 37232 | 代理人: | 赵长林 |
地址: | 250000 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 识别 模型 训练 方法 装置 | ||
一种实体识别模型的训练方法及装置,包括如下步骤:获取用于实体识别的语料;将语料进行标注;将标注之后的语料进行编码;将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;所述语料进行编码时采用BERT‑WWM模型进行编码处理。本申请采用一个特定的编码形式实现编码,从而将实体识别的语料进行预处理,该预处理的含义并不是为了提供一种精确的,电脑语言可识别的编码,而是提供一种可以提供多维度训练语言的工具;由于BERT‑WWM模型允许提供全词mask的方式进行语料处理,使得在特定的语料下可以训练该深度学习网络的预测纠错能力,从而在大大提高其学习的效率的同时,也提高了其识别的能力。
技术领域
本申请涉及一种实体识别模型的训练方法及装置。
背景技术
实体识别的目的在于在文本中识别出特定的实体信息,主要是一些名词信息,诸如人物,地点,物品,法人名称等。此种识别在信息电子化处理过程中是基础,且可以起到至关重要的作用。现在主要是有两种方式供选择,一种是字典式的,一种是通过规则学习进行自动提取。字典式的由于没有很好的自我扩充性以及自身的自我局限性逐步被抛弃;而通过规则学习的方式,则由于语料方面的不一致,导致了各种实体识别系统的良莠不齐,更加重要的是,如果语料学习的能力太差,规则学习方式实质上等同于字典式,并不能带来实质性的进步。
发明内容
为了解决上述问题,本申请一方面提出了一种实体识别模型的训练方法,包括如下步骤:获取用于实体识别的语料;将语料进行标注;将标注之后的语料进行编码;将编码之后的语料用作深度学习网络的材料以训练得到实体识别模型;所述语料进行编码时采用BERT-WWM模型进行编码处理。本申请采用一个特定的编码形式实现编码,从而将实体识别的语料进行预处理,该预处理的含义并不是为了提供一种精确的,电脑语言可识别的编码,而是提供一种可以提供多维度训练语言的工具;由于BERT-WWM模型允许提供全词mask的方式进行语料处理(当然也不排除采取以字为粒度的方式),使得在特定的语料下可以训练该深度学习网络的预测纠错能力,从而在大大提高其学习的效率的同时,也提高了其识别的能力。
优选的,所述语料按照字符进行标注,并将各个实体的开始和结束进行区分性标注。
优选的,所述语料标注完毕之后,先进行人工检查再进行编码。
优选的,所述BERT-WWM模型将编码得到的单词进行切片处理,进行切片处理之后,相邻的字符组成词组进行标注。具体来说可以使用BERT-WWM 模型中的vocab.txt词表对语料切片;当然由于不同的词表可以获得不同的形式,本申请并不限于该种形式。需要说明的是,本申请采用的BERT模型采用的是谷歌开源的BERT中文语言模型,其本身已经进行的大量的语料训练,在编码过程中已经考虑了上下文关系,因此其有与WWM进行结合提供不同侧面语料的基础。
优选的,将词组进行标注之后,采用遮蔽语言模型进行词组的完整遮蔽,然后将遮蔽以及未遮蔽的语料共同作为深度学习网络的材料。
优选的,所述完整遮蔽包括如下形式:将词组利用等量的代码替代或将词组利用等量的其他词组替代。
优选的,所述深度学习网络采用BiLSTM+CRF模型。
优选的,所述语料标注按照如下方式进行:
语料的每个字符依次进行标注;
语料的句首添加[CLS]标签,句末添加[SEP]标签;
语料的中间材料采用BIO的标注方式,B代表实体的开始标签,I代表实体的非开始标签,O代表非实体标签;
对标注完成的语料,进行人工审核。
优选的,所述BIO标注方式中,不同的类型实体进行标明。
另一方面,本申请还提出了一种实体识别模型的训练装置,包括如下模块:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东旗帜信息有限公司,未经山东旗帜信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010016766.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种终端及通信方法
- 下一篇:一种纳米线的处理方法及纳米线