[发明专利]基于增强样本模型的卫星频轨数据信息抽取方法有效
申请号: | 202111570758.5 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114238524B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 何元智;李志强 | 申请(专利权)人: | 军事科学院系统工程研究院网络信息研究所 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/31;G06F16/332;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100141 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 增强 样本 模型 卫星 数据 信息 抽取 方法 | ||
1.一种基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,其具体步骤包括:
S1,根据卫星频轨数据信息抽取的任务需求,定义卫星频轨数据的实体类型,所定义的六类实体类型包括:卫星名称、卫星网络ID、主管部门、轨位、轨道类型、频段;实体是卫星频轨数据中的卫星通信主体;
S2,定义实体间关系集合,在步骤S1定义的实体类型的基础上,定义实体间关系,实体与实体间关系用三元组表示;
S3,获取结构化卫星频轨数据,对结构化卫星频轨数据进行知识抽取,包括数据预处理、实体识别、实体关系抽取;
S4,对非结构化卫星频轨数据进行知识抽取,从互联网上通过数据爬取方法获得非结构化卫星频轨数据的文本数据,再对该文本数据进行分词,得到分词序列,用BIO标注方法对分词序列进行标注,将标注后的文本作为训练语句库;对基于BERT的预训练模型进行微调,形成基于BERT的命名实体识别模型;利用训练语句库训练基于BERT的命名实体识别模型;使用训练完成的基于BERT的命名实体识别模型对分词序列中的每个字进行正确的分类;
S5,根据步骤S4的分类结果,筛选出含有步骤S1中定义的实体类型的句子;在筛选出的句子中,对于包含相同实体类型的实体的句子,把这些句子打包作为一个句袋,并把这些句子中实体之间的实体关系标记为句袋标签;
S6,利用步骤S3中抽取的实体类型及其关系,对步骤S5中句袋数据进行补充,增加句袋数量,对不同实体关系下的句袋数量进行均衡;
S7,构建实体关系抽取模型,首先利用强化学习算法对句袋中噪声句子和正确标签句子进行筛选,然后利用正确标签句子和噪声句子训练实体关系抽取模型;
S8,将步骤S4得到的命名实体信息及其对应的句子输入到步骤S7训练得到的实体关系抽取模型,得到句子中实体的正确关系分类结果,完成卫星频轨数据命名实体的关系抽取;
S9,非结构化数据中抽取的实体及其关系用三元组表示,比较该三元组与三元组集合T中数据,若三元组集合T中已存在该三元组的数据,则不添加该三元组的数据;若三元组集合T中不存在该三元组的数据,则将该抽取出的实体及其关系三元组数据加入到集合T中,实现以三元组形式表示的结构化卫星频轨数据集的扩充。
2.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,所述的实体与实体间关系具体包括:(卫星名称,属于,卫星网络ID)、(卫星名称,受管控,主管部门)、(卫星名称,轨位为,轨位)、(轨道类型,轨道下有,卫星名称)、(卫星名称,使用,频段)和(主管部门,拥有网络,卫星网络ID),所有的实体间关系构成实体间关系集合。
3.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,所述的实体关系抽取模型通过分段卷积神经网络来实现。
4.如权利要求1所述的基于增强样本模型的卫星频轨数据信息抽取方法,其特征在于,
所述的步骤S3,其具体包括:
S31,数据预处理是按照定义的实体类型,从国际电联的SRS数据库中获取结构化卫星频轨数据,再在该结构化卫星频轨数据中选出实体类型的对应数据,存入实体-关系表格中;
S32,对结构化卫星频轨数据进行实体识别,首先针对定义的实体类型及其关系,从该实体-关系表格中匹配得到对应的数据,选出相关实体;
S33,实体关系抽取,是将步骤S32选出的实体所属的S1中定义的实体类型对应的S2中定义的实体间关系,设置为实体之间的关系;
S34,对每两个实体之间,利用其对应关系,建立三元组集合T。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军事科学院系统工程研究院网络信息研究所,未经军事科学院系统工程研究院网络信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111570758.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法、系统及相关装置
- 下一篇:一种铁观音夏暑茶的制备方法