[发明专利]一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法有效
申请号: | 202110216317.9 | 申请日: | 2021-02-26 |
公开(公告)号: | CN112966126B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 徐超;陈勇 | 申请(专利权)人: | 南京审计大学 |
主分类号: | G06F16/41 | 分类号: | G06F16/41;G06F16/432;G06F16/483;G06N3/04 |
代理公司: | 南京天华专利代理有限责任公司 32218 | 代理人: | 刘畅;徐冬涛 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 海量 结构 数据 内容 查询 追溯 可靠 知识库 构建 方法 | ||
本发明公开了一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法,其特征在于它包括:(1)输入非结构化原始数据,采用二级结构进行存储:云端存储原始数据,区块链以交易的方式存储原始数据的摘要特征及原始数据之间的联系;(2)输入查询条件,自动提取查询条件的摘要信息作为查询依据;(3)将查询依据与区块链中的信息进行相关度匹配,返回直接相关结果及其该结果的前驱后继关系。本发明利用深度学习技术将非结构化数据的特征信息自动提取出来,使其能够方便的用于数据检索;同时利用区块链将这些检索的摘要信息及数据之间的关系保存起来,保障知识库的中数据检索和溯源的高可靠性。
技术领域
本发明属于大数据存储和区块链应用领域,特别是涉及一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法。
背景技术
随着大数据的快速发展,利用图片、视频这样非结构化数据构建的应用越来越广泛,各类企业都十分注重相关数据的积累,通常以知识库的方式来管理。但构建的知识库主要是为应用而服务的,而知识库要能被有效应用,一方面要保证其存储的数据的可靠性,特别是一些决策支持类知识库,一旦数据缺失将可能导致完全相反的结果;另一方要提供较好的检索能力,包括根据关键字直接查找我们需要的内容,以及根据指定的内容查找它的来龙去脉。对于结构化数据,现有的数据库管理系统已经能够实现较好的数据检索功能,但对于非结构化数据,由于其内容的异质性,现有的知识库通常是基于个人对非结构化数据的理解,通过自定义关键字的形式来构建搜索索引,建立关联。当需要搜索相关信息或搜索数据的来龙去脉时,仅能够根据关键字来进行查找。由于非结构化数据表现内容的丰富性,这种通过个人理解确定的简单关键字信息,并不一定能够完全体现非结构化数据本身所涵盖的所有方面。比如在警察进行案件取证的时候,一些图片或视频信息里可能无意间记录了一些关键证据,但这些图片或视频可能最初只是为了宣传某个产品而拍摄的,并不直接与这个案件相关,所以它的这个关键字里可能并没有对应的信息,因此,仅根据个人提取的非结构化关键字进行搜索,很多情况下会错失许多有用数据,这将使得知识库的作用大打折扣。
发明内容
本发明主要解决的技术问题是提供一种面向海量非结构化数据的知识库构建方法,能够从非结构化数据的内容层面进行数据检索和溯源,并保障知识库的可靠性。
在利用关键字对知识库中的数据进行查询时,现有的知识库难以基于非结构化数据的内容进行搜索。为解决上述问题,本发明利用深度学习技术自动提取非结构化数据的特征,并借助区块链结构,提出一种面向海量非结构化数据内容可查询可追溯的高可靠知识库构建方法,所述方法包括:
–输入图片、视频、声音等非结构化原始数据,采用“云+区块链”的二级结构进行存储。云端存储原始数据,区块链以交易的方式存储数据的摘要特征及联系;
–输入查询条件,自动提取数据的关键信息作为查询依据;
–将查询依据与区块链中的信息进行相关度匹配,返回直接相关结果及其该结果的前驱后继关系。
具体地,对于输入的图片、视频、声音等非结构化原始数据,采用云服务器保存。
具体地,对于非结构化数据的摘要特征及联系,采用区块链进行保存。为保障交易能够用于非结构化数据的按内容可靠查询,每一个交易T被表示为一个五元组T=E,H,ID,S,A,其中,E表示交易证据,H表示交易数据的哈希、ID表示交易号、S表示数据发送方的数字签名、A表示交易摘要。一个区块中第i个交易可以表示为Ti=Ei,Hi,Di,Si,Ai;其中:
–交易证据字段E为交易所依赖的证据项,证据项分为两大类:a)基于区块链上已有的证据,此时地址即为对应的交易号;b)新的证明材料,这类材料则需要上传到云端,然后将云端地址作为证明材料的地址。E的计算方式为E=∪e,e∈ID|e∈Addr,其中,ID表示所有交易号的集合,Addr是所有云端地址的集合;
–交易证据字段的证据项之间通过“;”分隔;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京审计大学,未经南京审计大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110216317.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无感紧凑型电阻
- 下一篇:一种基于数据驱动的变电站三维模型建立方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置