[发明专利]一种面向情报分析的构建知识图谱的系统及方法在审
申请号: | 201611124399.X | 申请日: | 2016-12-08 |
公开(公告)号: | CN106815293A | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 王金华;姜春涛;丘定;姜鑫 | 申请(专利权)人: | 中国电子科技集团公司第三十二研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海汉声知识产权代理有限公司31236 | 代理人: | 郭国中,樊昕 |
地址: | 200233 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 情报 分析 构建 知识 图谱 系统 方法 | ||
技术领域
本发明涉及自然语言处理、计算机信息处理技术、中文知识库应用等领域,特别是涉及知识图谱构建领域。
背景技术
近些年以来,是一个数据爆炸的时代,数据量每年保持着50%左右的增长速度,为了处理这些海量的数据,挖掘这些数据的潜在意义,提高检索质量和效率,全球各大研究机构和搜索引擎厂家都绞尽脑汁。随着Linking Open Data等项目的全面展开,语义Web数据源的数量激增,大量RDF(Resource Description Framework,资源描述框架)数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱,分别为Knowledge Graph、知心和知立方,来改进搜索质量,从而拉开了语义搜索的序幕。同时,面对海量、复杂、异构的情报信息,需要能够进行快速分析挖掘与关联能力,能够快速挖掘分析出情报对象实体、并将实体关联到庞大的情报知识图谱中,并要求处理情报的数据环境在数据处理量、反馈时效等方面具备很强的能力。想要拥有这些能力,如何构建一张完整,高质量的知识图谱是不可缺少的关键技术。
世界各国安全及情报部门均已构建系统或研发技术,支持有效地收集、融合、管理和分析情报大数据,并从中分析获得有价值情报。例如美国政府的各情报部门通过“棱镜计划”在国内外持续监视互联网活动和通信运营商的用户信息;同时美国军方早在5年前就投了大量资金给Palantir等公司,Palantir通过其完善的数据库和强大的数据关联分析技术,帮助了奥巴马政府追捕本·拉登的行动。“9.11”恐怖袭击发生后,由于很多危及国家安全的可疑恐怖分子数据信息分散在不同机构中,对此,根据国土安全第6号总统令于2003年成立恐怖分子筛查中心(以下简称TSC)。该中心隶属于FBI并由其领导,是一个由司法部、国土安全部、国务院等部门代表组成的综合性机构,主要负责确定可疑或潜在的恐怖分子。下设信息科技处、行政管理处和行动处三个部门。国家反恐中心(NCTC)和FBI分别将国外与国内已知和可疑的恐怖分子名单通过TSC传输到恐怖分子筛查数据库(TSDB),并根据不同数据库之间日常交互运作,增加、修改或删除TSDB中已知和可疑恐怖分子的身份信息。在TSC内设有全天候呼叫中心,构建了覆盖全球的恐怖分子识别的特征信息网络,包括位置、住宿、联系方式、交易记录,以帮助执法机构确定在恐怖分子筛查过程中遇到的人员是否是数据库中确定的匹配对象,然后将这些可用信息提供给进行日常筛查作业的执法人员。TSC还积极与全美融合中心合作,确保融合中心准确及时地传递已知和可疑恐怖分子信息,通过授权FBI等各机构执法人员参与筛查,有效地预防了恐怖袭击的再次发生。因此,特征信息网络已经成了美国国家反恐中心的核心支撑技术。美军的TIA(即“全信息识别”或“威胁信息识别”计划),使用先进的方法收集、处理以及分析大规模恐怖主义的数据,其最终目的是从根源上阻断恐怖袭击。它的主要方法是通过EELD(证据抽取和关联关系)子项目从非结构化文本中抽取人、组织、地点和事件之间的关系和关联的证据,构成知识图谱,进而对恐怖分子的关系、行踪、活动进行建模和关联分析,在识别IS恐怖活动中起了重要作用。从技术上讲,TIA计划重点发展:1)构建大规模的反恐数据库的体系结构;2)从现有资源填充数据库的新方法,创造新的来源,并创造新的挖掘、融合和提炼算法;3)为分析和关联数据库信息采用知识图谱的新模型,从而获得可操作的情报技术。
相比之下,国内对这方面技术的利用和研究还是很欠缺,所以面对涉及到各个领域的海量纷繁复杂的情报数据,急需一种方法对这些数据进行清洗处理,使其变成有高利用价值的知识图谱。知识图谱的构建步骤一般是抽取数据、中文分词、实体识别、关系识别。而关系识别是目前最难以解决的问题。其主要工作是:实体共现+关系标注。而现有方法无法做到持续的改进关系的标注、或者强烈依赖外部知识输入和人工干预。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第三十二研究所,未经中国电子科技集团公司第三十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611124399.X/2.html,转载请声明来源钻瓜专利网。