[发明专利]基于AI的非结构化数据管理方法及装置有效
申请号: | 201711387626.2 | 申请日: | 2017-12-20 |
公开(公告)号: | CN108268600B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 鄂海红;宋美娜;段云峰;江裕锋 | 申请(专利权)人: | 北京邮电大学;博元森禾信息科技(北京)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 100876 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ai 结构 数据管理 方法 装置 | ||
本发明公开了一种基于AI的非结构化数据管理方法及装置,其中,方法包括:通过HDFS和Nosql存储大规模的非结构化数据对象;从非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的数据特征存储在外部表,并构建非结构化数据模型;使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,而所述非结构化数据模型用于对非结构化数据进行相似性搜索。该方法可以有效提高对非结构化数据的查询准确度及扩展性,实现非结构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现了增值业务的多样性和灵活性。
技术领域
本发明涉及非结构化数据技术领域,特别涉及一种基于AI(ArtificialIntelligence,人工智能)的非结构化数据管理方法及装置。
背景技术
非结构化数据的语义信息包括格式信息,内容信息等等,但是非结构化数据数量巨大,格式多样,内容信息难以完全提取和存储,存储成本极高,相关技术中常用到的主要为:通过预置解析规则或者特征模板,然后提取关键词的方式得到数据信息和直接对非结构化数据的元数据信息存储在索引表中。
然而,已有的非结构化处理方法和装置绝大部分通过预置相应的用于解析和匹配非结构化数据中关键词的模板或者规则,或者直接将已知的数据的元数据信息存储在索引表中,埋没了非结构化数据的其他非结构化数据潜在的重要的数据信息,无法挖掘出数据的潜在的价值,需要预先将元数据信息进行存储,也无疑增大了存储的压力和成本,由于企业的图像、声音、视频等文件类的非结构化数据呈爆炸性增长,而且非结构化数据不像结构化数据般可以方便地进行检索利用,导致难以管理,不能有效地利用,亟待解决。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于AI的非结构化数据管理方法,该方法可以有效提高对非结构化数据的查询准确度及扩展性,实现非结构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现增值业务的多样性和灵活性。
本发明的另一个目的在于提出一种基于AI的非结构化数据管理装置。
为达到上述目的,本发明一方面实施例提出了一种基于AI的非结构化数据管理方法,包括以下步骤:通过HDFS(Hadoop Distributed File System,分布式文件系统)和Nosql(Not Only SQL,非关系型数据库)存储大规模的非结构化数据对象;从所述非结构化数据对象中通过AI智能算法提取数据特征,并且将提取的所述数据特征存储在外部表,并构建非结构化数据模型;使用SQL(Structured Query Language,结构化查询语言)检索非结构化数据对象的特征表,实现对非结构化数据的管理,而非结构化数据模型用于对非结构化数据进行相似性搜索。
本发明实施例的基于AI的非结构化数据管理方法,可以按照需求动态将提取的特征存储在外部表,使用SQL检索非结构化数据对象的特征表,实现对非结构化数据的管理,同时由人工智能算法对数据进行建模处理,构建非结构化数据模型,用于对非结构化数据进行相似性搜索,能有效提高对非结构化数据的查询准确度及扩展性,实现非结构化数据核心的数据特征价值提取,使得非结构化数据得以很方便地识别,检索和使用,充分体现增值业务的多样性和灵活性。
另外,根据本发明上述实施例的基于AI的非结构化数据管理方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过HDFS和Nosql存储大规模的非结构化数据对象,进一步包括:通过所述HDFS和Nosql存储原始非结构化文件,并通过语义分析得到基本属性,包括语义特征和视觉特征,同时提供访问特征数据和原始数据的接口;存储由算法语义分析训练非结构化数据得到的模型信息,以用于检索的相似度查询。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学;博元森禾信息科技(北京)有限公司,未经北京邮电大学;博元森禾信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711387626.2/2.html,转载请声明来源钻瓜专利网。