[发明专利]文档信息抽取及图谱化方法和系统在审
申请号: | 202110795366.2 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113609838A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 牛硕硕;王金华;王盼盼;李德启;黄哲 | 申请(专利权)人: | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06F40/295;G06F16/35;G06F16/36 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 201800 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 信息 抽取 图谱 方法 系统 | ||
本发明提供了一种文档信息抽取及图谱化方法和系统,包括:步骤1:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行实体抽取;步骤2:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行关系和对应实体属性抽取;步骤3:对抽取的实体、关系及属性三元组进行图谱化,生成文档图谱。本发明能够基于句法语义规则对文档进行关系及属性抽取,无需采用机器学习的方法进行数据的标注和训练,提升了抽取效率,降低了抽取时的计算机资源消耗。
技术领域
本发明涉及自然语言理解与处理技术领域,具体地,涉及一种文档信息抽取及图谱化方法和系统。尤其地,涉及一种基于句法语义规则的管理文档信息抽取及图谱化方法。
背景技术
随着信息和互联网时代的到来,信息资源建设成为当前军队信息化建设的核心内容,军事装备快速更新升级、军事组织机构和人员重新部署规划、军事战术推陈出新,军队项目建设和需求任务日益增多,要求军事信息自动化的程度进一步提高。
数据的精确分析在现代军事情报研究工作中的作用越来越突出,而大量的信息以电子文档的形式存在也为信息的抽取、数据的分析与知识图谱的构建提供了基础条件。军事信息自动化建设工作需要从军事电子资料中实时提取出文本中最有效的信息,并运用数据挖掘和自然语言处理技术,从海量信息中挖掘出有价值的军事信息,在整个作战范围内合理配置战场信息资源,为军队的决策者提供全面的数据评估、可靠的分析结果,协助决策者快速地做出决策。
军事需求文档,作为军事技术研究与项目管理实现的重要文档,承担着从需求概念落地到需求实现之间的桥梁作用。面对海量的需求文档,决策参谋人员迫切需要一些自动化工具,应用合适的抽取方法,从文本中快速进行实体、关系和属性的抽取来获取文档的总体需求,这种将由人工阅读提取转化成计算机自动提取的过程,能极大地提高工作效率。
现有的信息抽取技术大多依赖于深度学习的方法,这类方法一般需要耗费大量的人力、物力对数据进行预处理和标注,并消耗巨大的计算资源对模型进行训练。此外,现有的抽取对象往往是具体存在的实体,而军事领域的需求管理文档需要抽取的实体更多的是功能、概念、系统描述、角色等虚概念,需要抽取的关系例如组成、包含、输入输出等也是比较抽象的关系概念。因此,对于军事需求管理文档的抽取亟待需要一些结合自然语言处理和词法句法语义特征的方法去制定规则,从语言构成的角度去抽取实体和关系属性,这既能一定程度减少数据标注过程带来的人力物力消耗,也能从语言构成本身出发去进行文本解析,可解释性强。
专利文献CN106874378A(申请号:CN201710006826.2)公开了一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法。然而该专利采用的是百科类的半结构化数据的抽取,它对词法句法语义等自然语言处理技术的依赖相对较弱。
专利文献CN108319586A(申请号:CN201810097357.4)公开了一种信息提取规则的生成和语义解析方法及装置。然而该专利无法对错误识别的实体词进行剪枝处理并获取实体词的分类,达到抽取军事需求文档实体词的目的。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种文档信息抽取及图谱化方法和系统。
根据本发明提供的文档信息抽取及图谱化方法,包括:
步骤1:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行实体抽取;
步骤2:通过自然语言理解技术和自然语言处理技术,从词特征和依存句法树上获取文档的构词特征,并制定规则用模式匹配的方法进行关系和对应实体属性抽取;
步骤3:对抽取的实体、关系及属性三元组进行图谱化,生成文档图谱。
优选的,所述步骤1包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东计算技术研究所(中国电子科技集团公司第三十二研究所),未经华东计算技术研究所(中国电子科技集团公司第三十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110795366.2/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置