[发明专利]基于知识图谱的文件语义关联存储系统及方法在审
申请号: | 202111255086.9 | 申请日: | 2021-10-27 |
公开(公告)号: | CN113961528A | 公开(公告)日: | 2022-01-21 |
发明(设计)人: | 蔡鸿明;潘子奕;于晗;姜丽红 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/172 | 分类号: | G06F16/172;G06F16/16;G06F16/13;G06F16/14;G06F16/182;G06F16/36;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 文件 语义 关联 存储系统 方法 | ||
一种基于知识图谱的文件语义关联存储系统及方法,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,本发明以工业生产领域过程中产生的多类型文件集为输入,结合领域知识图谱完成文件语义关联与分区,最后基于文件分块以及链式哈希完成文件分区安全存储,并形成相应的存储元数据。
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种基于知识图谱的文件语义关联存储系统及方法。
背景技术
针对工业生产领域过程中产生的多类型文件的存储与归档是工业界数字化建设中必不可少的一步,然而目前工业界对于多类型文件的存储与归档仍然面临着以下几个方面的难题:首先,对于文件的处理分析方式单一,针对XML类型文件、图纸类型文件及文档类型文件等不同类型的文件都仅仅采用单一的通用元数据抽取方式,如何对于多类型文件针对性地进行文件特征抽取是一个重要的问题;另外,文件本身在文件系统中的存储极其孤立,除让文件管理者手动建立关联之外,如何智能化、自动化使得海量新旧文件之间关联起来并保证文件关联的完整性也是一个值得考虑的问题;最后,文件的存储往往简单地通过明文的方式存在文件系统中且也没有备份,如何在文件存储归档的同时提高文件的保密性、安全性以及防篡改性同样值得探索。
针对上述问题,当前业界已经存在一部分相关的技术,例如:对于文件关联对象进行查询和其他处理的实现方法、基于文件标题的关联性进行文件的自动关联方法、通过区块链来保证文件存储安全性的系统,但是这些技术大体上都关联维度单一、可扩展性差、效率低下,尚未出现较为完整、成熟的解决方案。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于知识图谱的文件语义关联存储系统及方法,以工业生产领域过程中产生的多类型文件集为输入,结合领域知识图谱完成文件语义关联与分区,最后基于文件分块以及链式哈希完成文件分区安全存储,并形成相应的存储元数据。
本发明是通过以下技术方案实现的:
本发明涉及一种基于知识图谱的文件语义关联存储系统,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,其中:多模态特征抽取模块对输入的多类型文件集进行多模态分析及特征抽取进一步转化为包含特征信息的语义抽象文件集;结构化知识抽取模块借助从XML类型文件抽取出的元结构再从输入的XML原文件中抽取出对应的实体从而转化为结构化知识集;多层次语义补全模块将结构化知识集自顶向下地融合到领域知识图谱中实现知识图谱的动态演化;自动语义关联模块以领域知识图谱为支撑对包含特征信息的语义抽象文件集进行实体链接并建立语义关联从而转化为关联文件集,从而借助于语义维度的关联进一步提升了文件关联的完整性;柔性动态分区模块通过语义聚类分区将文件动态划分到与其最关联的分区中,从而指导建立语义关联目录来完成新旧文件增量式动态关联从而增强了系统的可扩展性;哈希安全存储模块基于语义分区文件集的分区信息,结合文件分块以及链式哈希对文件进行分布式安全存储。
所述的多模态文件特征抽取包括:XML类型文件特征抽取、图纸类型文件特征抽取以及文档类型文件特征抽取。
所述的XML类型文件特征抽取是指:通过SAX文件解析库将XML文件中每个属性对应的相对路径转化为基于XPATH表述的静态绝对路径结构并识别出具体的属性原子类型,然后将每条绝对路径合并封装成为XML文件的元结构,最后提取每一条XPATH记录的叶节点名词属性值作为XML类型文件的语义特征。
所述的图纸类型文件特征抽取是指:首先将平面图纸文件通过PNG导出的方式生成对应的图像文件从而方便后续的图像处理,再针对导出的PNG图像使用在对应领域下预训练的CNN卷积神经网络来对图像中的每一个像素点进行分类,并划分为背景、噪音、造型对象三大类别区域,最后针对造型对象对应的类别区域采用对象识别结合分类器的方式识别出造型对象的具体类别,如:发动机、甲板等,并视作对应的文件语义特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111255086.9/2.html,转载请声明来源钻瓜专利网。