[发明专利]一种云平台数据获取方法在审
申请号: | 201510531172.6 | 申请日: | 2015-08-26 |
公开(公告)号: | CN105205104A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 成都布林特信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 郭霞 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 平台 数据 获取 方法 | ||
1.一种云平台数据获取方法,用于在基于云计算的金融数据检索系统中进行数据检索和查询,其特征在于,包括:
将分布式环境下的多个查询方法进行集成,将非结构化查询和结构化数据查询均作为执行单元,为用户提供统一的查询界面;将用户的查询请求转换成多个成员查询方法所能识别的格式,最终将查询结果以一定的格式返回给用户。
2.根据权利要求1所述的方法,其特征在于,在所述非结构化查询中,通过所述基于云计算的检索系统提供资源管理、数据整合、索引存储;并构建非结构化的数据查询服务体系;采用Hadoop开源框架构,依赖ZooKeeper机制进行分布式协调、群集元数据和配置保存,检索层提供索引更新、索引删除、查询、分词、索引库、对外接口模块;数据采集层提供基础设施和数据资源的管理模块;上下层接口用于协调两层级间的数据交互和服务传递,以业务格式标准为依据进行索引库的设计;通过人工预处理的方式将文档内容进行划分,生成不同关键词条相对应的文本段,以作为索引库建立的原始输入,使用开源Servlet技术提供的接口函数,实现索引的建立、添加、更新、删除和查询,形成用户输入关键词-关键词条-文档的倒排索引,并通过定制化的二次开发对外提供HTTP调用接口;
在所述结构化查询中,将关键词查询应用到关系数据库,对数据库结构进行建模,使用图的方式来表征数据库的拓扑结构,形成结构化数据模式图,将数据查询问题转化为图查询问题,所述结构化数据模式图是一个无向图G=(V,E),其中V表示顶点的集合,每个顶点对应于数据库中的一个关系表,E表示边的集合,每条边对应于数据表间的一个外键关系,具体查询过程包括:
步骤1:创建节点索引表,所述节点索引表表征结构化数据模式图中各顶点所包含关键字的索引结构,创建方法为:将数据表、关系表中的每列各字段拼接成文档,对该文档抽取关键词,形成关键词到表名、列名的倒排索引;
步骤2:根据关键词定位关系表,对于用户输入的关键词,通过查询节点索引表来定位模式图中包含该关键词的顶点;
步骤3:以关键词为中心进行数据查询;以所述步骤2生成的顶点为中心进行扩展,生成候选的数据查询模式,每个查询模式是结构化数据模式图的子图,且包含了所有的关键词;查询模式的扩展采用广度优先遍历的方法,过程如下:
1)定义队列Q和V,将所有产生的中心节点作为初始模式添加到队列Q和V中;
2)从Q中取出模式P,将P的关联模式{P1,P2,…,Pn}添加到队列Q和V中,其中关联模式Pi(i=1,2,…,n),满足以下条件:①|Pi|=|P|+1,其中|Pi|为Pi包含顶点的个数;②Pi为连通图且不存在于V;
3)依次遍历Q中所有的模式,直到Q为空,选取符合如下条件的查询模式作为输出结果:
①输出模式需要包含所有的关键词;
②叶子顶点均包含至少一个关键词;
③输出模式包含的顶点数应小于预定的最大值Smax;
4)根据查询模式拼接结构化查询语言(SQL)语句,对每个候选查询模式均拼接SQL查询语句,通过用户关键词查询所述索引表,得到表名和列名信息写入SQL语句,使用SQL进行数据库查询并返回查询结果。
3.根据权利要求2所述的方法,其特征在于,所述金融数据检索系统包括业务服务器、应用服务器、数据服务器、整合服务器及各数据库;其中,业务服务器通过调用应用服务器进行信息检索,使用数据信息进行推送服务;应用服务器对数据进行统一的索引与维护;整合服务器对结构化、非结构化数据进行整合,采用查重机制及数据推送技术实现数据的分类汇总和规整,并通过协议接口和前端页面展示为用户及业务服务器提供信息服务;
整合服务器整合分散在各数据库系统、文件系统以及互联网的金融数据,对数据进行采集和清洗,并通过基于业务主体域的数据整合策略将不同来源主体的数据整合形成数据服务器;数据整合服务的主要过程包括:首先将查询请求以XMLSchema形式传递到数据抽取模块,数据抽取模块将XML转换成SQL查询语句,然后根据查询结果进行数据抽取,最后把抽取出来的结果集转换成XML的格式传递给集成处理模块,非结构化数据也需转化成XML格式,再由集成处理模块对XML文档做集成处理并最终生成统一的数据服务器;
利用基于段落主题的文本查重机制,使用文本数据的主题信息来比较其相似度,实现对于相同主题和雷同内容的金融数据的归类,由文本中的每个段落产生一个特征值,将一个文本表达为基于段落主题的特征值集合;通过比较两个文本的段落特征值来计算两个文本的相似度,最后相似度超过设定阈值时则认为是重复文本,进行查重操作;该数据查重框架的整体结构包括:查重组件、查重配置管理、查重结果分析三部分;其中,查重组件通过语义解析引擎用于对数据内容进行分词处理,特征值生成器根据分词结果生成数据的特征值特征,将64位的特征值按相同规则被均分4组进行索引存储;在特征值比对过程中,首先进行数据计算的降维,并计算数据特征值特征与特征值库的数据特征值海明距离大于或等于3的比对结果;查重配置管理用于对数据查重的结果进行日志记录,并检查数据查重的结果;
此外,检索系统中的数据推送系统采用基于用户行为聚类的推送算法来实现个性化的数据推送服务;通过建立用户和数据之间相互对应的二元关系,利用用户行为的相似性关系来挖掘每个用户潜在感兴趣的对象,进而进行个性化的推送;数据推送系统由用户信息的行为日志记录模块、用户偏好的模型分析模块和推送算法模块三部分组成;其中行为日志记录模块用于在各业务接触点记录用户的各种行为信息,包括页面的停留时间、点击序列、内容浏览记录以及用户的个人信息和交易历史(来源于集中交易系统)、行情浏览历史(来源行情系统);用户偏好的模型分析模块用于对用户行为日志的分析,对用户多角度的属性加以测算和评分,为每一个用户建立各自的多属性描述,并运用业务知识和数据挖掘工具对用户的众多属性评分进行聚类,将具有相似行为模式的用户聚集在一起;推送算法模块则是利用组合算法从数据服务器中根据分类分级用户模型为用户实时计算出各数据的客户兴趣度,并返回其中给业务前台进行集中展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司,未经成都布林特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510531172.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置