[发明专利]基于AI的非结构化数据管理方法及装置有效

专利信息
申请号: 201711387626.2 申请日: 2017-12-20
公开(公告)号: CN108268600B 公开(公告)日: 2020-09-08
发明(设计)人: 鄂海红;宋美娜;段云峰;江裕锋 申请(专利权)人: 北京邮电大学;博元森禾信息科技(北京)有限公司
主分类号: G06F16/332 分类号: G06F16/332
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 张润
地址: 100876 北京市海淀区西*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 ai 结构 数据管理 方法 装置
【说明书】:

发明公开了一种基于AI的非结构化数据管理方法及装置,其中,方法包括:通过HDFS和Nosql存储大规模的非结构化数据对象;从非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的数据特征存储在外部表,并构建非结构化数据模型;使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而所述非结构化数据模型用于对非结构化数据进行相似性搜索。该方法可以有效提高对非结构化数据的查询准确度及扩展性,实现非结构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现了增值业务的多样性和灵活性。

技术领域

本发明涉及非结构化数据技术领域,特别涉及一种基于AI(ArtificialIntelligence,人工智能)的非结构化数据管理方法及装置。

背景技术

非结构化数据的语义信息包括格式信息,内容信息等等,但是非结构化数据数量巨大,格式多样,内容信息难以完全提取和存储,存储成本极高,相关技术中常用到的主要为:通过预置解析规则或者特征模板,然后提取关键词的方式得到数据信息和直接对非结构化数据的元数据信息存储在索引表中。

然而,已有的非结构化处理方法和装置绝大部分通过预置相应的用于解析和匹配非结构化数据中关键词的模板或者规则,或者直接将已知的数据的元数据信息存储在索引表中,埋没了非结构化数据的其他非结构化数据潜在的重要的数据信息,无法挖掘出数据的潜在的价值,需要预先将元数据信息进行存储,也无疑增大了存储的压力和成本,由于企业的图像、声音、视频等文件类的非结构化数据呈爆炸性增长,而且非结构化数据不像结构化数据般可以方便地进行检索利用,导致难以管理,不能有效地利用,亟待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种基于AI的非结构化数据管理方法,该方法可以有效提高对非结构化数据的查询准确度及扩展性,实现非结构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现增值业务的多样性和灵活性。

本发明的另一个目的在于提出一种基于AI的非结构化数据管理装置。

为达到上述目的,本发明一方面实施例提出了一种基于AI的非结构化数据管理方法,包括以下步骤:通过HDFS(Hadoop Distributed File System,分布式文件系统)和Nosql(Not Only SQL,非关系型数据库)存储大规模的非结构化数据对象;从所述非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的所述数据特征存储在外部表,并构建非结构化数据模型;使用SQL(Structured Query Language,结构化查询语言)检索非结构化数据对象的特征表,实现对非结构化数据的管理,而非结构化数据模型用于对非结构化数据进行相似性搜索。

本发明实施例的基于AI的非结构化数据管理方法,可以按照需求动态将提取的特征存储在外部表,使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,同时由人工智能算法对数据进行建模处理,构建非结构化数据模型,用于对非结构化数据进行相似性搜索,能有效提高对非结构化数据的查询准确度及扩展性,实现非结构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现增值业务的多样性和灵活性。

另外,根据本发明上述实施例的基于AI的非结构化数据管理方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,所述通过HDFS和Nosql存储大规模的非结构化数据对象,进一步包括:通过所述HDFS和Nosql存储原始非结构化文件,并通过语义分析得到基本属性,包括语义特征和视觉特征,同时提供访问特征数据和原始数据的接口;存储由算法语义分析训练非结构化数据得到的模型信息,以用于检索的相似度查询。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;博元森禾信息科技(北京)有限公司,未经北京邮电大学;博元森禾信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711387626.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top