[发明专利]中文命名实体识别模型及其构建方法和应用在审
申请号: | 202010943147.X | 申请日: | 2020-09-09 |
公开(公告)号: | CN111967266A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 王会梅;郭望舒;鲜明;刘建 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08;G06N7/00 |
代理公司: | 上海上谷知识产权代理有限公司 31342 | 代理人: | 陈婷婷 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 命名 实体 识别 模型 及其 构建 方法 应用 | ||
本发明提供一种中文命名实体识别模型及其创建方法以及应用于网络空间安全领域的方法。所述中文命名实体识别模型的应用基于迁移学习和深度神经网络,首先在中文命名实体识别领域公认的四大通用数据集上训练Bert‑BiLSTM‑CRF模型,充分学习到通用知识特征;而后进行模型迁移,将迁移学习后的TBBC(Trans‑Bert‑BiLSTM‑CRF)模型在自标注的网络空间安全领域数据集上再进行训练,学习得到该领域知识的特征后并输出模型,最终得到有实际应用价值的TBBC模型,再进行中文命名实体识别。经测试可知本发明所得的TBBC模型的准确率、召回率和F1值提升明显,中文命名实体识别性能大大提高,可有效缓解在特定领域进行命名实体识别任务时训练数据不足、识别性能较低的现实困境。
技术领域
本发明涉及自然语言处理领域,具体地,涉及一种基于迁移学习和深度神经网络模型的中文命名实体识别模型及其构建方法和应用。
背景技术
命名实体识别一直以来都是信息抽取、自然语言处理等领域中重要的研究任务,主要任务是从非结构化文本中提取能体现现实世界中已存在的具体实体或者抽象实体的单词或者词组,例如人名、地名和组织机构名等,当前主流的识别目标实体为“三大类(实体类、时间类和数字类)、七小类(人名、地名、组织名、机构名、时间、日期、货币和百分比)。命名实体识别技术发展至今,已经在信息抽取、信息检索、机器翻译、问答系统、文本理解、舆情分析和知识图谱构建等诸多领域得到了广泛应用。
命名实体识别技术发端于英文命名实体识别,而中文文本中没有词语边界符号,实体识别的效果很大程度上受制于自动分词的效果,因此,提高中文的分词效果是中文命名实体识别的前置条件。
目前,中文命名实体识别主要有三种方法:
一、基于规则的方法。该方法诞生于上世纪90年代,主要通过人工方法构建有限的规则库,再从待识别文本中通过规则匹配的方式识别出实体。后期研究者试图基于机器(如Bootstrapp i ng方法)自动发现和生产规则,提高制定规则的效率和效果。该方法规则制定的成本较高,因为如果要提高识别效果要求大量的规则,但显然有限的规则库无法囊括所有的实体;另外,规则对领域知识依赖极大,这使得不同领域的规则库无法移植迭代。
二、基于统计机器学习的方法。本世纪初机器学习在自然语言处理领域兴起,为解决命名实体识别任务,研究学者提出了诸多方法,如:经典马尔科夫法(HMM)、最大熵法(ME)、条件随机场法(CRF)和支持矢量机法(SVM),以及综合了前面几种方法的层叠马尔科夫方法、多层条件随机场方法等。统计机器学习方法存在的主要问题是识别准确率低,训练容易过拟合。
三、基于深度神经网络的方法。近年来在解决命名实体识别任务方面,主流方法是采用深度神经网络方法。尤其是采用词向量的方法后,对自然语言处理领域的发展起到了强大的助推作用。当前针对命名实体识别任务进行研究的方法主要有基于卷积神经网络(RNN)、基于循环神经网络(RNN)、基于长短期记忆网络(LSTM)和基于图神经网络(GRU)等,并在部分领域取得了良好的效果。
但在中文领域命名实体识别方面,训练有效的深度神经网络依赖大规模高质量的领域数据,当前在开源互联网能够获得通用数据集,但并无“网络空间安全”领域的训练数据,而直接使用现成的识别模型在通用数据集上进行训练,所得的模型识别效果并不理想,不具有应用价值。
发明内容
针对网络空间安全领域中存在的中文命名实体识别数据缺乏、识别性能差等问题,本发明提出了一种基于迁移学习和深度神经网络的中文命名实体识别模型及其构建方法,以及其应用于网络空间安全领域进行中文命名实体识别的方法。本发明将在大规模通用数据集上训练并充分学习通用知识特征,通过迁移学习后在自标注的网络空间安全领域数据上进行训练并学习得到该领域知识的特征,所得模型识别性能明显提升,有效解决了在网络空间安全领域进行命名实体识别任务训练数据不足的现实困境。
具体技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010943147.X/2.html,转载请声明来源钻瓜专利网。