[发明专利]基于bert算法模型的知识图谱构建系统在审
申请号: | 201911113554.1 | 申请日: | 2019-11-14 |
公开(公告)号: | CN110866125A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 牛志超;马语菡;南海涛;刘林;王俊;费廷伟;刘戎;徐永伟 | 申请(专利权)人: | 北京京航计算通讯研究所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 周恒 |
地址: | 100074 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 算法 模型 知识 图谱 构建 系统 | ||
本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建系统。与现有技术相比较,本发明通过使用bert‑bilstm‑crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert‑bilstm‑crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。
技术领域
本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建系统。
背景技术
在军工集团,每年会产生大量的归零文档,但是现阶段只是将这些非结构化文档存储在磁盘或者知识库中,缺乏有效的处理手段对归零文档的知识进行进一步的处理,而利用知识图谱的方法可以将归零文档的知识体系化、结构化和知识化。常用的知识图谱实体提取方法包括:基于语义序列核方法、特征向量法、bilstm-crf中文命名识别方法等。语义序列核方法是结合中文文本的语义特征,利用七条启发规则来抽取实体;基于特征向量法是将实体抽取问题转化为实体分类问题,常用的特征包括:上下文特征、动词特征、距离特征等;基于bilstm-crf中文命名识别方法是一种端到端的过程,不依赖特征工程,是一种数据驱动方法。
面对大量的非结构化文本,进行图谱实体提取时大多数算法都能提取文档中实体,但是都存在精确度低、速度慢、消耗人力的特点。其中,基于语义序列核方法,在构建规则的过程往往需要大量的语言学知识,不同的语言规则不尽相同,而且很难处理规则之间的冲突,同时构建规则的过程费时费力、可移植性不还;基于特征向量的实体提取方法适合于包含两个句子的关系抽取;基于bilstm-crf中文命名识别方法无法有效的增强字的语义和字的多义性、无法对文本上下文全向预测。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:为了快速、精准处理大量、复杂、互连、多变的非结构化归零文档数据,如何形成知识图谱和知识体系,方便相关人员快速理解归零文档知识和全面的了解归零文档体系,为军工集团相关应用提供基础的数据支撑。
(二)技术方案
为解决上述技术问题,本发明提供一种基于bert算法模型的知识图谱构建系统,所述系统包括:
领域数据预处理模块,其用于对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;
实体识别模型生成模块,其用于利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
文档预处理模块,其用于读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;
文本切分模块,其用于将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
实体提取模块,其用于利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;
实体关系提取模块,其用于利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
整合模块,其用于利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
知识图谱生成模块,其用于将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京航计算通讯研究所,未经北京京航计算通讯研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911113554.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:压合夹具及壳体的制作方法
- 下一篇:关键检验特性缺陷率统计装置