[发明专利]一种军事装备的知识图谱构建方法有效
申请号: | 202010084156.8 | 申请日: | 2020-02-10 |
公开(公告)号: | CN111309925B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 梅楚璇;段飞虎;邓凤;刘红阳;郎志国;冯自强;张宏伟 | 申请(专利权)人: | 同方知网数字出版技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 王泽云 |
地址: | 100084 北京市海淀区西小口路66号中关村东升科技园B-2号楼二层B201、*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 军事装备 知识 图谱 构建 方法 | ||
1.一种军事装备的知识图谱构建方法,其特征在于,所述方法包括:
A构建军事装备知识图谱;
B根据已有的图谱数据,自动构建军事装备规则知识库,包括实体规则和数值性规则;
C抽取军事装备实体,并根据已有的军事装备实体的特征,在非结构化的军事语料中提取新的军事装备实体;
D基于提取的军事装备实体,将语料划分为多个文本片段;
E抽取文本片段数值属性,并分析已有的武器装备的属性;
F基于HowNet概念关系词典,对知识图谱中的实体词进行上位词、下位词、同义词、反义词关系扩充;
G融合知识图谱数据和基于知识规则库得到的知识图谱数据,并将融合后的知识图谱数据进行加工;
所述步骤C中在非结构化的军事语料中提取新的军事装备实体包括:
在待处理文本中提取出含有军事装备类别名的句子,替换掉字母、数字和特殊字符之后,作分句、分词处理,查找类别名所在句子前后8个词的范围内的词和类别名,查询实体规则数据库,按以下公式,确定该词是否属于军事装备实体,从而获取实体的开始、结束位置;
其中,n(a)表示词a在已有装备中出现的概率,n(ab)表示词a和词b已有的装备中共同出现的概率;若r值大于所设的阈值,则实体包含该词语,直至r值小于阈值或超过划定范围停止;
根据获取到的军事装备实体,根据类别名,得到类别名,SUB_ENTITY,军事装备实体,构建三元组;
所述步骤E中数值属性抽取包括:
(1)数据准备,统计所有已知属性值的单位、对应的属性名称,并将数据存入数据库;
(2)文本预处理,将收集的所有的单位、属性名称构成词典,加载后对文本片段分句、分词;
(3)对其中的一个文本片段,若在文本中出现在同一个句子里或者相邻出现的属性名和单位,也在数据库中出现过记录,则该属性值为该属性名对应的值;
(4)将文本片段用BiLSTM+CRF模型进行命名实体识别,通过词性标注获取词性标签、根据依存句法分析得到依存标签和句法依存树,根据核心谓语和依存句法分析结果抽取其他属性;
(5)将军事装备的属性也构建成军事装备名,属性名,属性值关系三元组。
2.如权利要求1所述的军事装备的知识图谱构建方法,其特征在于,所述步骤G中知识图谱数据的融合具体包括:
(1)融合基于爬虫得到的知识图谱数据和基于知识规则库得到的知识图谱数据,并在融合的过程中构建简称和全称的对应词典,融合同义但不同表达的节点名与关系名;
(2)审核基于规则库提取出的关系三元组;
(3)图谱数据用数据库Neo4j存储,其中Neo4j支持节点、关系、路径的搜索,满足基于军事装备知识图谱的搜索需求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司,未经同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010084156.8/1.html,转载请声明来源钻瓜专利网。