[发明专利]基于知识图谱的文件语义关联存储系统及方法在审

专利信息
申请号: 202111255086.9 申请日: 2021-10-27
公开(公告)号: CN113961528A 公开(公告)日: 2022-01-21
发明(设计)人: 蔡鸿明;潘子奕;于晗;姜丽红 申请(专利权)人: 上海交通大学
主分类号: G06F16/172 分类号: G06F16/172;G06F16/16;G06F16/13;G06F16/14;G06F16/182;G06F16/36;G06F16/35;G06F40/289;G06F40/30
代理公司: 上海交达专利事务所 31201 代理人: 王毓理;王锡麟
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 知识 图谱 文件 语义 关联 存储系统 方法
【权利要求书】:

1.一种基于知识图谱的文件语义关联存储系统,其特征在于,包括:多模态特征抽取模块、结构化知识抽取模块、多层次语义补全模块、自动语义关联模块、柔性动态分区模块以及哈希安全存储模块,其中:多模态特征抽取模块对输入的多类型文件集进行多模态分析及特征抽取进一步转化为包含特征信息的语义抽象文件集;结构化知识抽取模块借助从XML类型文件抽取出的元结构再从输入的多类型文件集中抽取出对应的实体从而转化为结构化知识集;多层次语义补全模块将结构化知识集自顶向下地融合到领域知识图谱中实现知识图谱的动态演化;自动语义关联模块以领域知识图谱为支撑对包含特征信息的语义抽象文件集进行实体链接并建立语义关联从而转化为关联文件集;柔性动态分区模块通过语义聚类分区将文件动态划分到与其最关联的分区中;哈希安全存储模块基于语义分区文件集的分区信息,结合文件分块以及链式哈希对文件进行分布式安全存储;

所述的多模态文件特征抽取包括:XML类型文件特征抽取、图纸类型文件特征抽取以及文档类型文件特征抽取。

2.根据权利要求1所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的XML类型文件特征抽取是指:通过SAX文件解析库将XML文件中每个属性对应的相对路径转化为基于XPATH表述的静态绝对路径结构并识别出具体的属性原子类型,然后将每条绝对路径合并封装成为XML文件的元结构,最后提取每一条XPATH记录的叶节点名词属性值作为XML类型文件的语义特征;

所述的图纸类型文件特征抽取是指:首先将平面图纸文件通过PNG导出的方式生成对应的图像文件从而方便后续的图像处理,再针对导出的PNG图像使用在对应领域下预训练的CNN卷积神经网络来对图像中的每一个像素点进行分类,并划分为背景、噪音、造型对象三大类别区域,最后针对造型对象对应的类别区域采用对象识别结合分类器的方式识别出造型对象的具体类别,并视作对应的文件语义特征;

所述的文档类型文件特征抽取是指:首先采用PDF解析库解析结合OCR文本识别扫描的综合方式对于文档文件进行文档解析和文本提取,之后基于一定的分词算法针对提取出的文本进行分词处理,并提取出带有名词特性的关键作为语义特征候选集,最后对于预处理得到的单词集进行关键词挖掘来获得真正能够表征文档类型文件语义特性的关键词集。

3.根据权利要求2所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的关键词挖掘具体是指:首先基于Word2Vec词聚类算法,将单词集转化为低位稠密向量并由优化的聚类算法得到候选关键词词组,之后以候选关键词词组为粒度针对其中每一个单词分别运行TF-IDF算法以及Text Rank算法生成对应的得分,再针对得分经由合并算法产生新的单词的得分,最后选取每一个关键词词组中的Top-K作为关键词词组。

4.根据权利要求3所述的基于知识图谱的文件语义关联存储系统,其特征是,所述的优化的聚类算法是指:基于公式动态生成实际聚类的个数,其中为平均文件大小,s为原始文件大小,为平均候选关键词数量,n为候选关键词数量,为平均关键词数量,为θ动态配置的常量代入公式;

所述的合并算法是指:首先针对两个算法得到的分数基于公式来进行归一化,其中scoremax、scoremin分别代表当前已统计分数中的最大值与最小值,score代表当前分数,S代表归一化后的最终得分,然后基于加权平均Sfinal=αSTF-IDF+(1-α)STextRank得到最终的分数,其中STF-IDF、STextRank分别代表TF-IDF和Text Rank算法得到的归一化的公式,α为动态配置的权重常量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111255086.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top