[发明专利]一种文本大数据的查询处理方法有效

申请号：	201410391873.X	申请日：	2014-08-11
公开（公告）号：	CN104182489B	公开（公告）日：	2018-04-27
发明（设计）人：	黄震华;李美子;方强;张佳雯;向阳	申请（专利权）人：	同济大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海科盛知识产权代理有限公司31225	代理人：	宣慧兰
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本数据查询处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明计算机应用技术领域，尤其是涉及一种文本大数据的查询处理方法。

背景技术

近些年，文本大数据上的查询处理已成为学术界和工业界的一个研究热点和重点。

Ciaccio AD等人指出传统的查询处理方法通常不适合管理和分析文本大数据，并提出3个改进方法TNL、CDCA和SFMAE来有效查询分析文本大数据。SysoevO等人基于steiner树理论，提出有效的近似最优算法来处理文本大数据上的多元单调回归问题。Laurila JK等人针对移动无线通讯网络中累积的文本大数据，设计了LDCC算法来有效分析用户的各通讯指标。Oliner A等人对网络的日志大数据进行一致性编码来有效优化用户的访问性能。Bennett J等人基于map-reduce计算模型，设计了UEQOT方法来提高文本大数据的查询处理效率。而Pébay P等人对文本大数据上的并行查询处理技术做了详细的综述。

在文本大数据的挖掘方面，大都研究工作通过扩展现有的方法来处理文本大数据。例如Zhou J等人、Chen L等人和JaBezdek JC等人分别对层次聚类、K-Mean聚类和Fuzzy C-Mean聚类进行了扩展。这类扩展算法基本上通过对文本大数据进行局部采样，并利用现有的算法(例如CLARA、CLARANS和BIRCH等)来完成数据挖掘过程，因此局部采样的机制在很大程度上影响全局数据挖掘的效果。另一方面，近些年，许多研究工作考虑分布式和并行实施文本大数据的数据挖掘。Chu C等人在多核处理器上基于简单的map-reduce编程模型实现了文本大数据的10类数据挖掘算法，包括局部加权线性回归、K-means聚类、逻辑回归、朴素贝叶斯、线性支持向量机、自变量分析、高斯判别式分析、期望最大化估计以及BP神经网络。Ranger C等人同样基于多核处理机系统，使用map-reduce编程模型实现了3类数据挖掘算法，包括K-means聚类、主成分分析依据线性回归。Gillick D等人基于Hadoop平台对大数据的各类数据挖掘算法进行了性能测试，并得出了map-reduce编程模型是目前最为适合的一种计算框架。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种便捷、准确的文本大数据的查询处理方法。

本发明的目的可以通过以下技术方案来实现：

一种文本大数据的查询处理方法，包括以下步骤：

1)规范文本大数据语义，该步骤包括：

11)构造文本大数据查询分析过程中所涉及的查询对象语义范式模型，通过不同级别范式的语义描述规范刻画各对象的语义描述程度；

12)；对不同的查询对象设计不同级别范式相互转化准则得到更为精确的语义描述；

2)建立指令解析与查询工作流模型，该步骤包括：

21)查询指令语义预解析，对查询指令初步解析，使其具备计算机可理解的基础形式；

22)构建查询指令语义模型；

23)指令语义精炼，使指令语义模型符合高级别的描述规范；

24)选择和重构查询工作流，通过底层数据库选取与对象模型相对应的模板实例；