[发明专利]一种多神经网络协作的军事领域命名实体识别方法在审
申请号: | 202010315730.6 | 申请日: | 2020-04-21 |
公开(公告)号: | CN111680511A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 尹学振;赵慧;陈沁蕙;李欣妍 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海德禾翰通律师事务所 31319 | 代理人: | 陈艳娟 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 协作 军事 领域 命名 实体 识别 方法 | ||
1.一种多神经网络协作的军事领域命名实体识别方法,其特征在于,包含以下步骤:
步骤A:获取公开的文本数据,形成原始数据集;
步骤B:结合领域知识,提出考虑实体模糊边界的军事领域实体标注策略,制定军事领域命名实体分类标准;
步骤C:针对所述原始数据集进行文本预处理,结合步骤B中实体标注策略及实体分类标准构建军事语料集MilitaryCorpus;
步骤D:利用深度学习和统计学习的框架,训练基于BERT-BiLSTM-CRF网络结构的多神经网络协作军事领域命名实体识别模型,以进行针对文本数据的军事领域命名实体识别任务。
2.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,所述文本数据来源于微博。
3.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤B包括:
步骤B1:除通用的人员名称、时间、地名外,针对军事领域特殊的军衔和军职、军事机构、军事设施、军事事件、武器装备5种类别的实体给出定义:将表示用于军事目的的建筑、场地和设施标注为军事设施实体;将表示军事有关的院校、军事行政单位、政府机关、作战部队或组织标注为军事机构实体;将表示与军事领域相关的军事演习、武装冲突、武装袭击、政治事件标注为军事事件实体;枪械、火炮、飞行器、弹药、坦克、舰艇、导弹、生化武器、核武器标注为武器装备实体;
步骤B2:结合专业知识和文献资料,提出考虑模糊边界的实体标注规则:
规则1:英文字母,短横线,数字与武器装备相连,将英文字母,短横线,数字与武器装备整体标注为武器装备实体;
规则2:军事机构与武器装备相连,若武器装备为军事机构独有,则分别标注为军事机构实体和武器装备实体;若武器装备不是军事机构独有,军事机构和武器装备的整体标注为武器装备实体;
规则3:军事机构与军事机构相连,以最低的机构级别为准,将多个军事机构相连的整体标注为军事机构实体;
规则4:军事机构或军事地名与军衔相连,将相连的整体标注为军衔和军职实体;
规则5:军事地名/军事机构与军事设施相连,若军事设施为具有具体名称的军事设施,则分别标注为军事地名/军事机构实体和军事设施实体;若军事设施没有具体名称则将相连的整体标注为军事设施实体。
4.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤C包括:
步骤C1:对所述的原始数据集进行清洗,删除不含军事信息的数据,删除数据中的特殊符号;所述特殊符号包括:表情、颜文字;
步骤C2:结合步骤B的考虑实体模糊边界的军事领域实体标注策略,及军事领域命名实体分类标准,针对步骤C1处理后的文本进行字级别的标注,形成军事领域命名实体语料集MilitaryCorpus。
5.如权利要求1所述的多神经网络协作的军事领域命名实体识别方法,其特征在于,步骤D包括:
步骤D1:对军事语料进行句子级别的划分,根据文本序列中的每一个字xijk生成特征向量ck,基于Transformer的双向编码器将所述特征向量ck转换成带有字特征和位置特征的字向量Ek;
步骤D2:将字向量序列输入双向长短时记忆神经网络提取出上下文特征并生成特征矩阵Pk;
步骤D3:CRF层根据特征向量ck捕获相邻标签之间的依赖关系,并通过所述相邻标签之间的依赖关系确定整个句子优化的标签序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010315730.6/1.html,转载请声明来源钻瓜专利网。