[发明专利]一种面向情报分析的构建知识图谱的系统及方法在审
申请号: | 201611124399.X | 申请日: | 2016-12-08 |
公开(公告)号: | CN106815293A | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 王金华;姜春涛;丘定;姜鑫 | 申请(专利权)人: | 中国电子科技集团公司第三十二研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海汉声知识产权代理有限公司31236 | 代理人: | 郭国中,樊昕 |
地址: | 200233 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 情报 分析 构建 知识 图谱 系统 方法 | ||
1.一种面向情报分析的构建知识图谱的系统,其特征在于,包括:
数据采集模块,对采集到的数据进行清洗和简单预处理之后输出到文本抽取模块;
文本抽取模块,对采集到的结构化和非结构化数据进行数据清洗和预处理,判断文件是否存在破损,对采集到的文件进行包括统一编码转换和繁简转换的操作,清洗和预处理完之后将数据输送到实体识别模块;
实体识别模块,对于接收到的干净的文本数据,首先对文本进行分词,然后对分好的单词进行词性标注,在词性标注完成后,对术语进行提取,提取出的结果输送到语义分析模块;
语义分析模块,分析提取本体间的关系,再通过本体构建工具生成语义元数据模型,然后输出到实体关系提取模块;
实体关系提取模块,通过提取包括分类关系、非分类关系最后生成知识图谱。
2.根据权利要求1所述的面向情报分析的构建知识图谱的系统,其特征在于,所述数据采集模块通过采用围绕某一特定目标进行针对性的爬取的面向情报大数据的爬虫系统来实现。
3.根据权利要求1所述的面向情报分析的构建知识图谱的系统,其特征在于,所述实体识别模块包括:分词模块、词性标注模块、术语分析模块,对于接收到的干净的文本数据,分词模块首先对文本进行分词,根据分词规则和词典提取出所有的单词,然后词性标注模块对分词模块分好的单词进行词性标注,在词性标注完成后,术语分析模块根据术语库对术语进行提取。
4.根据权利要求1所述的面向情报分析的构建知识图谱的系统,其特征在于,所述语义分析模块结合本体集成提取出语法库和本体库,结合语法、语义规范以及语法、语义的学习算法,生成信息提取的一个规则库,依赖过程中生成的语法库,本体库以及信息提取规则库,最终通过语法、语义分析提取出本体间的关系。
5.一种面向情报分析的构建知识图谱的方法,其特征在于,通过权利要求1至4任一所述的系统实现,包括:
步骤1,通过采用能够围绕某一特定目标进行针对性的爬取的面向情报大数据的爬虫系统实现数据的爬取;
步骤2,将步骤1采集到的数据进行数据清洗和过滤,把存在破损的数据进行过滤,将多种多样的文本编码格式转换成统一的UTF-8编码,对转换过编码的文本进行包括繁简转换的预处理操作;
步骤3,将步骤2清洗和预处理完之后的数据进行命名实体识别,包括分词、词性标注和术语分析;
步骤4,生成信息提取规则库,同时结合过程中生成的语法库、本体库,通过语法分析、语义分析,再通过本体构建工具生成语义元数据模型,然后输出到下一步语义关系识别;
步骤5,对步骤4输送过来的语义元数据模型进行语义关系识别提取。
6.根据权利要求5所述的面向情报分析的构建知识图谱的方法,其特征在于,步骤1中,爬取到的文本格式包括Office、PDF、XML、HTML或者通过私有数据库进行的导入数据。
7.根据权利要求5所述的面向情报分析的构建知识图谱的方法,其特征在于,步骤3包括三个子步骤:
分词步骤206、词性标注步骤208、术语分析步骤210,其中,分词步骤206将清洗和预处理过的文本数据根据词典和选定的分词规则进行分词,分词完毕后就进行词性标注步骤208,根据词典和词性标注规则库将步骤206分解出来的词进行词性标注,后者,其中分词步骤206和词性标注步骤208放在一起进行,在分词的同时就标注好词性,完成之后,然后进行术语分析步骤210,根据通过术语提取和术语词典集成生成的术语库,对术语进行分析提取,过滤没用的词语,经过步骤206、步骤208、步骤210,根据通过机器学习和词典集成的命名实体模式库抽取命名实体。
8.根据权利要求7所述的面向情报分析的构建知识图谱的方法,其特征在于,为了应对词典统计分词的不足,采用CRF分词技术,不仅考虑词语出现的频率信息,同时考虑上下文语境。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所,未经中国电子科技集团公司第三十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611124399.X/1.html,转载请声明来源钻瓜专利网。