[发明专利]中文命名实体识别模型及其构建方法和应用在审
申请号: | 202010943147.X | 申请日: | 2020-09-09 |
公开(公告)号: | CN111967266A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 王会梅;郭望舒;鲜明;刘建 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08;G06N7/00 |
代理公司: | 上海上谷知识产权代理有限公司 31342 | 代理人: | 陈婷婷 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 命名 实体 识别 模型 及其 构建 方法 应用 | ||
1.一种中文命名实体识别模型,其特征在于,
所述识别模型是基于Bert-BiLSTM-CRF模型的基础上增加了迁移学习模块的TBBC模型;所述Bert-BiLSTM-CRF模型从输入到输出方向依次包括Bert语言预训练模型、双向长短期记忆网络BiLSTM和条件随机场CRF层;所述迁移学习模块作用于所述Bert-BiLSTM-CRF模型;
所述Bert语言预训练模型,用于将中文词句进行词/字向量化,转化为机器可读的形式;
所述双向长短期记忆网络BiLSTM,用于将所述词/字向量进一步训练处理;
所述条件随机场CRF层用于对所述双向长短期记忆网络BiLSTM的输出结果进行解码以得到预测标注序列;
所述迁移学习模块,用于将基于通用语料训练的网络模型参数迁移至特定目标领域的新模型,并用以训练。
2.一种构建权利要求1所述的中文命名实体识别模型的方法,其特征在于,包括如下步骤:
获取多个通用数据集作为源域数据集;
在scrapy框架基础上构建爬虫系统,从互联网上爬取特定领域的原始数据;
构建自标注平台,对所爬取的特定领域的原始数据进行数据清洗,而后进行标注,得到目标域的数据集;
使用Bert-BiLSTM-CRF模型分别在所述源域数据集中的各个所述通用数据集上进行训练,充分学习到通用知识特征,得到训练后性能最佳、具备对通用语料特征进行抽取的源域Bert-BiLSTM-CRF模型;
所述迁移学习模块将所述源域Bert-BiLSTM-CRF模型的参数迁移至所述目标域TBBC模型中,然后使用自标注数据进行训练;
输出所述目标域训练后所得的TBBC模型。
3.根据权利要求2所述的构建中文命名实体识别模型的方法,其特征在于,所述自标注平台基于BRAT标注工具构建,对所述特定领域的数据进行标注的规则依据是BIO体系、BIOE体系以及BIOES体系中的一种或多种的结合。
4.根据权利要求2所述的构建中文命名实体识别模型的方法,其特征在于,所述迁移学习模块迁移过程具体为:
通过所述源域Bert-BiLSTM-CRF模型中的Bert语言预训练模型对输入的所述目标域的数据集进行词嵌入,得到其所有句子中的每个字向量;
通过将所述源域Bert-BiLSTM-CRF模型的神经网络参数迁移至所述目标域的TBBC模型的双向长短期记忆网络BiLSTM,然后将所述字向量输入所述目标域的TBBC模型中进行训练;
通过所述源域Bert-BiLSTM-CRF模型的特征标签参数迁移至所述目标域的TBBC模型的所述条件随机场CRF层,所述条件随机场CRF层将所述目标域的输出结果进行解码以得到一个预测标注序列。
5.一种将权利要求1所述的中文命名实体识别模型应用于网络空间安全领域的方法,其特征在于,包括如下步骤:
获取多个通用数据集作为源域数据集;
在scrapy框架基础上构建爬虫系统,从互联网上爬取网络空间安全领域的原始数据;
构建基于BRAT标注工具的自标注平台,并按照BIO体系对所述网络空间安全领域数据进行清洗,而后标注数据,得到目标域的数据集;
使用Bert-BiLSTM-CRF模型分别在所述源域数据集中的各个所述通用数据集上进行训练,充分学习通用知识特征,得到训练后性能最佳、具备对通用语料特征进行抽取的源域Bert-BiLSTM-CRF模型;
通过所述源域Bert-BiLSTM-CRF模型中所述Bert语言预训练模型对输入的所述目标域的数据集进行词嵌入,得到其所有句子中的每个字向量;
将所述源域Bert-BiLSTM-CRF模型里深度神经网中的神经元参数迁移至所述目标域的TBBC模型的所述双向长短期记忆网络BiLSTM中,然后将所述Bert语言预训练模型输出的字向量输入迁移后的所述目标域的TBBC模型中进行训练;
调整所述目标域的TBBC模型的所述条件随机场CRF层的输出,将所述双向长短期记忆网络BiLSTM输出的特征向量通过所述条件随机场CRF层解码为一个最优的标记序列,作为最后的预测标签输出;
对所述标记序列中的各个实体进行提取分类,完成中文实体识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010943147.X/1.html,转载请声明来源钻瓜专利网。