[发明专利]用于航空领域的知识元抽取方法在审

专利信息
申请号: 202210375009.5 申请日: 2022-04-11
公开(公告)号: CN114764566A 公开(公告)日: 2022-07-19
发明(设计)人: 董洪飞;贺薇;陶剑;高魁;高龙;武铎;刘俊;王孝天;安然;何柳 申请(专利权)人: 中国航空综合技术研究所
主分类号: G06F40/295 分类号: G06F40/295;G06K9/62;G06F40/151;G06N3/04;G06N3/08;G06F40/30;G06F40/211;G06F40/242;G06Q50/30
代理公司: 北京孚睿湾知识产权代理事务所(普通合伙) 11474 代理人: 王冬杰
地址: 100028 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 航空 领域 知识 抽取 方法
【权利要求书】:

1.一种用于航空领域的知识元抽取方法,其特征在于,其具体步骤如下:

S1、模型预训练:将航空领域的结构化标注数据输入到Bert模型,得到微调预训练的Bert模型,并输出结构化标注数据的特征向量

S2、特征融合:将S1输出的特征向量和Word2Vec模型学习到的特征向量进行融合,并做Concat叠加步骤:

S21、利用汉字—郑码映射表将非结构化的文本数据依字转换为对应的郑码序列;

S22、利用Word2Vec模型得到每个字的郑码特征向量,所述郑码特征向量的具体表达式为:

p=fzhengma(X) (1)

其中,X表示字符的输入序列,fzhengma表示将输入的非结构化文本数据字符序列映射为郑码序列的函数,p表示根据字符的输入序列映射得到的郑码特征序列,pi表示xi对应的郑码序列,ezhengma表示郑码序列和郑码特征向量序列的映射表,表示与输入序列xi对应的郑码特征向量;

S23、利用Word2Vec模型得到每个字的笔画特征向量,所述笔画特征特征向量的具体表达式为:

p=fbihua(X) (3)

其中,fbihua表示将输入的X字符序列映射为笔画序列的函数,p表示根据输入的X字符序列得到的笔画序列,pi表示输入字符xi对应的笔画序列,ebihua表示笔画序列和笔画特征向量的映射表,表示与输入序列X中的第i个输入字符对应的笔画特征向量;

S24、利用Word2vec模型得到每个字的五笔特征向量向量和拼音特征向量

S25、将S22-S24得到的和进行Concat拼接特征处理叠加得到字向量,所述拼接特征处理的具体表达式如下:

其中,分别代表着对BERT、郑码、五笔、拼音和笔画特征向量,k为0.5,代表第i个字符对应的融合后向量;

S3、归一化处理:将S2得到的字向量输入到层次归一化层,得到标准化的字向量,随后将标准化的字向量输入BiLSTM模型,得到包含上下文语义信息的字向量,并利用对抗训练进行参数更新;

S4、实体关系预测:利用高层强化学习过程对S3得到的每个字向量进行解码,按句识别字向量中的关系触发词:

S41、对于识别出的不同结果,设定对于整体模型的参数优化机制,若识别出关系触发词,则根据识别出的不同类别的关系实体对高层强化学习过程进行模型参数优化,而后触发低层强化学习过程进行实体识别,对当前关系对应的实体进行解码;

S42、若未识别出关系触发词,则停止解码;

S5、标签预测:建立面向航空领域长实体的头尾指针模型,通过头指针和尾指针做五分类来识别关系实体的起始位置和结束位置,并利用S4中的参数优化机制,得到预测的关系和尾实体的起止位置序列;

S6、模型后处理:将预测出的实体输出后,根据实体的标签信息进行就近原则以及匹配方式进行匹配:

S61、将预测出的实体以就近原则将识别出的关系实体和尾实体一一配对,得到三元组;

S62、依据LTP依存句法抽取航空领域标注数据中的知识元信息,得到知识元的三元组;

S63、依据关系和尾实体距离抽取航空领域标注数据中的多个知识元信息进行匹配,得到多个知识元的三元组;

S64、抽取航空领域标注数据中知识元混淆的知识元信息:若知识元中关系实体包含尾实体或者前一个知识元的尾实体包含下一个知识元的关系,则根据知识元组的位置及数据信息,找到相应混淆的位置,做对应的截断,从而得到对应知识元的三元组。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空综合技术研究所,未经中国航空综合技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210375009.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top