[发明专利]基于增强样本模型的卫星频轨数据信息抽取方法有效
申请号: | 202111570758.5 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114238524B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 何元智;李志强 | 申请(专利权)人: | 军事科学院系统工程研究院网络信息研究所 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/31;G06F16/332;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100141 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增强 样本 模型 卫星 数据 信息 抽取 方法 | ||
本发明公开了一种基于增强样本模型的卫星频轨数据信息抽取方法,包括以下步骤:定义实体类型与关系集合;结构化频轨数据关系抽取阶段,从数据库中选取所需数据信息,匹配出相关实体;将实体对及其关系以三元组表示;非结构化频轨数据关系抽取阶段,将分词后的文本数据进行标注,训练实体识别模型,完成实体识别;增强样本模型,用结构化数据生成文本补充训练语句库,解决长尾问题,利用强化学习分类句袋中正确标签句子和噪声句子;训练分段卷积神经网络模型完成实体关系的分类抽取。本发明充分利用结构化数据和噪声句子,可以高效完成卫星频轨数据的知识抽取,丰富卫星频轨知识库;本发明具有方案灵活性高和关系抽取正确率高的优点。
技术领域
本发明涉及卫星数据处理技术领域,尤其涉及一种基于增强样本模型的卫星频轨数据信息抽取方法。
背景技术
目前,随着航天技术的飞速发展,世界上不同国家往太空中发射了很多卫星,产生了大量的频轨资源数据记录,这些数据中蕴含着很多有用的信息。传统的数据库存储的方法虽然记录着大量的结构化数据,但是其数据信息不够完整,不足以构建一个完整的频轨数据图谱。建立一种频轨图谱知识模型可以直观的展现这些数据之间的关系,可为这些数据的挖掘与利用打下技术基础。网络上有很多有用的非结构化卫星频轨数据,其数据量往往更加庞大,可以作为结构化数据的补充。
如何从非结构化的频轨数据中识别出需要的实体以及其关系,是构建一个完整的频轨数据图谱需要解决的基本问题。对于一个完整的频轨数据图谱的构建,主要包括了命名实体识别和关系抽取两个关键环节。根据对这两个环节任务是否进行统一建模,进行命名实体识别和关系抽取的方法可以分为联合抽取和Pipeline方法。
联合抽取是将两个任务统一建模为一个模型,该种抽取方案可以进一步利用两个任务之间存在的潜在的关联信息,减少错误累计的传播。但是由于两个任务的统一建模,用同样的特征表示进行两项任务,可能会对模型的学习造成误解。如何加强实体模型与关系模型的交互也是一个难题。Pipeline方法先进行命名实体识别,再进行关系抽取,该方案灵活性高,实体模型和关系模型可以分别使用独立的数据集。
对于命名实体识别而言,现有方法分为基于规则的方法、基于统计模型的方法和基于神经网络的方法。基于规则的方法要构建大量的是实体识别规则,与输入字符串进行匹配识别命名实体。这种方法需要专家构建规则,应用时具有一定的限制。基于统计模型的方法将命名实体识别视为序列标注问题,但仍需要人工进行特征的定义。定义的特征对最终的识别结果具有较大的影响。基于神经网络的方法不用人工定义特征,解决了上述问题。并且由于神经网络具有更强的特征表达能力,能充分的学习到实体上下文的特征。
对于卫星频轨实体关系抽取而言,现有方法分为基于模板的关系抽取、基于监督学习的关系抽取和基于远程监督的方法。当数据规模较大时,手工构建模板工作量大。基于监督学习的关系抽取方法,需要大量人工标注的数据,成为其制约因素。基于远程监督的方法避免了人工大量标注数据,但是会引入噪声。现有研究主要考虑选择出一个包含正确标签的句子或者识别并去除噪声,没有考虑到噪声对于模型训练具有的重要意义。同时,基于远程监督的方法存在长尾问题。以上两点导致现有方法训练的关系抽取模型是有偏的,准确度有限。
中国专利CN108304911中提出了一种基于记忆神经网络的知识抽取方法以及系统和设备,可用于预定义关系类型的知识抽取任务,能够自动地从互联网中的非结构化文本中抽取得到满足预定义关系类型的结构化信息;中国专利CN109359297提出了一种关系抽取方法及系统,该方法引入关系的层次结构信息构建一套层级结构的注意力机制,提高了关系抽取模型的稳定性。上述专利能够完成知识的抽取,但是以上专利的技术方案所使用的数据均为非结构化数据,未能充分利用已有结构化数据所含有的信息。第一个专利方案需要大量的人工标签,第二个专利方案采用了远程监督的思想,但是均未充分考虑噪声数据的作用,导致知识抽取准确率受限。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军事科学院系统工程研究院网络信息研究所,未经军事科学院系统工程研究院网络信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111570758.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法、系统及相关装置
- 下一篇:一种铁观音夏暑茶的制备方法