[发明专利]一种基于次级属性的非结构化数据信息查询方法及系统有效

专利信息
申请号: 202010513529.9 申请日: 2020-06-08
公开(公告)号: CN111831787B 公开(公告)日: 2021-09-28
发明(设计)人: 沈志宏;赵子豪;周园春 申请(专利权)人: 中国科学院计算机网络信息中心
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 司立彬
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 次级 属性 结构 数据 信息 查询 方法 系统
【说明书】:

发明公开了一种基于次级属性的非结构化数据信息查询方法及系统。本方法为:1)对于一目标数据库,将该目标数据库中每条记录的非结构化数据作为对应记录的一级属性;2)提取每个一级属性中的内在信息作为该一级属性的次级属性;3)对该目标数据库的查询语言进行扩展,增加语义操作符“‑”;对该目标数据库的查询引擎进行扩展,用于编译并执行符合该语义操作符“‑”语法的查询语句;4)查询引擎根据查询条件从缓存系统中查询符合查询条件的缓存结果,如果没有匹配结果,则根据该查询条件中的一级属性查找该目标数据库中匹配的记录,然后从匹配记录的一级属性中提取次级属性并分别与该查询条件中的次级属性进行匹配,并返回匹配结果。

技术领域

本发明涉及非结构化数据、数据查询语言、人工智能技术领域,针对现有技术无法方便地对非结构化数据进行信息查询,以及按需计算的现状。提出一种基于次级属性实现非结构化数据查询的方法及系统。

背景技术

非结构化数据在网络数据中占有较大的比重,图片、录音、视频、无格式长文本等内容均属于非结构化数据。当前,结构化数据的存储和查询相关的技术比较成熟,结构化数据的存储与管理的相关解决方案已经很完善。但是随着技术的进步和时代的发展,数据的来源越来越广,数量越来越多,形式越来越复杂。在许多应用场景之中,工程人员需要面对的不仅仅是格式规范的结构化数据,还有带自描述结构的半结构化数据甚至是没有固定结构的非结构化数据。显然,因为结构上的灵活性,这种数据有丰富的扩展性和极高的信息表达自由度。但是由于其格式上的自由性,这种非结构化数据的存储和管理也是一个困扰业界多年的问题。当前非结构化数据的管理和查询技术主要集中于根据非结构化数据的元数据,如文件名、大小,文件类别,标签值等信息进行检索。这种简单的检索不能充分利用AI技术,无法直接查询和消费非结构化数据中包含的信息,这对非结构化数据的查询和利用造成了困难。目前有一些人工智能方法可以抽取非结构化数据中的信息,如录音转文字、人脸识别、车牌号提取等,相关算法已经达到了较高的准确率。但因为AI算法依赖复杂、部署难度大,不同工具间差异较大等问题,使用AI算法获取非结构化数据中的信息并不方便。

面对非结构化数据越来越多,AI算法的准确性和丰富性越来越强的现状,开发一种能快速查询非结构化数据中信息的方法和系统具有重要意义。

发明内容

本发明针对非结构化数据信息查询问题,提出了一种基于次级属性的非结构化数据信息查询方法及系统,并基于图数据库给出了实现。该方法将非结构化数据中的设定信息与次级属性名结合,用次级属性名代表非结构化数据中的该设定信息,用AI算法抽取指定的次级属性,通过查询次级属性的形式获取非结构化数据中的信息,从而实现了非结构化数据中信息的快速查询,提升了灵活性。

本发明采用的技术方案如下:

一种基于次级属性的非结构化数据信息查询方法,其步骤包括:

1)对于一目标数据库,将该目标数据库中每条记录的非结构化数据作为对应记录的一级属性;

2)提取每个一级属性中的内在信息作为该一级属性的次级属性;

3)对该目标数据库的查询语言进行扩展,增加语义操作符“-”;该语义操作符“-”的使用方法为“a-b”,其含义为对于一级属性a,查询其中的次级属性b的值;对该目标数据库的查询引擎进行扩展,用于编译并执行符合该语义操作符“-”语法的查询语句;

4)查询引擎根据查询条件从缓存系统中查询符合查询条件的缓存结果,如果有匹配的缓存结果,则将其返回;如果没有匹配的查询结果,则根据该查询条件中的一级属性查找该目标数据库中匹配的记录,然后从匹配记录的一级属性中提取次级属性并分别与该查询条件中的次级属性进行匹配,并返回匹配结果。

进一步的,对于该目标数据库中的一记录i,如果该记录i有n个非结构化数据,则将该n个非结构化数据作为该记录i的n个一级属性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010513529.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top