[发明专利]一种基于迁移学习在军事装备文本实体抽取中的应用方法有效
申请号: | 202010920424.5 | 申请日: | 2020-09-04 |
公开(公告)号: | CN112215004B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 徐建;吴蔚;阮国庆;王鑫鹏 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F16/35;G06N3/0455;G06N3/096 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 于瀚文;胡建华 |
地址: | 210007 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 军事装备 文本 实体 抽取 中的 应用 方法 | ||
1.一种基于迁移学习在军事装备文本实体抽取中的应用方法,其特征在于,包括如下步骤:
步骤1,建立用于边界抽取和文本片段分类的网络模型;
步骤2,分析源领域数据,构造源领域问题集,实现网络模型的任务适配;
步骤3,利用基于掩码的语言模型实现网络模型的领域适配;
步骤4,将完成领域适配和任务适配的网络模型应用在目标领域,,完成军事装备文本信息的抽取;
步骤1包括:
步骤1-1,文本编码;
步骤1-2,检测实体边界;
步骤1-3,文本片段分类;
步骤1-4,联合训练边界抽取和片段分类;
步骤1-1包括:
文本编码:给定问题Q和段落P,问题段落添加开头和结尾的两个字符[CLS],[SEP]作为自然语言处理模型bert的输入,然后经过自然语言处理模型bert的L层transformer模块编码得到句子的上下文向量表示hi:
hi=TransformerBlockL(toki)
其中toki表示句子的单个字符,问题的字符长度为M,段落的字符长度为N;
步骤1-2包括:
将句子的上下文向量表示hi经过一个多层感知机分类器MLPstart,再经过一个softmax层得到字符toki是实体开始位置的概率
利用另一个多层感知机分类器MLPend得到字符是实体结束位置的概率
将所有实体出现的位置作为正样本,将训练的损失函数定义为所有实现出现位置的损失函数之和,如下所示:
其中表示开始位置的损失函数,表示结束位置的损失函数,Lossboundary表示开始位置和结束位置损失函数之和;
表示字符i是否是实体的开始位置,如果是则标记为1否则标记为0,表示字符i是否是实体的结束位置,如果是则标记为1否则标记为0;和表示网络输出,代表了位置i作为开始位置的概率,代表了位置i作为结束位置的概率,得到开始和结束位置即能够得到文本片段。
2.根据权利要求1所述的方法,其特征在于,步骤1-3包括:军事鉴定文本实体类型包括试验要素、性能指标、系统组成和任务场景共4类,将步骤1-2抽取的文本片段划分到这4个类中,如果不属于任何类别标记为其他:
设定文本片段表示为{toki,…,tokj},利用自然语言处理模型bert编码后的向量表示为{hi,…hj},hj表示段落中的第j个字符tokj利用自然语言处理模型bert编码后的向量表示,记Vspan=[hi,hj]为文本片段span的向量表示,经过一个多层感知机MLP分类器,以及softmax层得到文本片段span的网络预测输出Pspan:
Pspan=softmax(MLPspan(Vspan))
利用交叉熵作为训练损失函数:
其中k是类别个数,表示span是否是类别t,表示文本片段sp属于类别t的概率,表示多标签交叉熵损失。
3.根据权利要求2所述的方法,其特征在于,步骤1-4包括:综合步骤1-2中的实体边界损失和和步骤1-3中的片段分类损失,采用如下公式联合训练边界抽取和片段分类:
Loss=Lossboundary+Losssp,
其中实体边界损失Lossboundary来自于步骤1-2,片段分类损失Losssp来自于步骤1-3,Loss表示综合损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010920424.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:土壤环境生态修复的集成工艺
- 下一篇:基于物联网的汽车危险水位报警方法及装置