[发明专利]交通数据流的聚集查询方法及系统在审
申请号: | 201410378094.6 | 申请日: | 2014-08-01 |
公开(公告)号: | CN104156524A | 公开(公告)日: | 2014-11-19 |
发明(设计)人: | 冯钧;唐志贤;朱忠华;査显月;杜丙帅;许潇;王超;朱跃龙;李士进;万定生 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 熊玉玮 |
地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 交通 数据流 聚集 查询 方法 系统 | ||
技术领域
本发明涉及交通数据流的聚集查询方法及系统,属于信息技术处理领域。
背景技术
随着物联网、社交网络和云计算技术等的蓬勃发展,大量的业务应用产生了呈指数级别增长的数据流数据,使得对数据进行分析和挖掘,发现其中蕴含的自然规律和人类活动信息,已经变得前所未有的迫切;通过扫描大量数据元组获取统计和概要信息的聚集查询作为数据分析最常见的查询方式被广泛使用;例如:为了分析和控制交通流、缓解交通压力,交通监控系统经常关注特定时段内特定路段上移动车辆的近似概要信息(如:南京市新街口上下班高峰期大约有多少辆车通过?)。由于数据流具有实时性、无限性、瞬时性、流速不定性以及元数据无穷性等特点,尽管云计算技术具有天生的并行计算能力,也难以对整个数据集进行聚集查询以在较短时间内获取精确的查询结果,所以,在实际应用中往往利用高质量的近似聚集查询结果以代替精确结果。虽然近年来,近似聚集查询的研究成果显著;但是面对人们对查询精度要求的逐步提高,滑动窗口技术、随机采样技术、小波技术、草图索引结构、直方图技术等典型的近似聚集查询方法均以平均查询误差的大小去衡量算法的优劣,忽略了能够产生最大相对误差或者较大相对误差的异常点对方法本身性能的影响(聚集查询方法的可用性往往是由最大相对误差决定),使得近似聚集查询的精度已经无法替代精确查询。
针对这种情况,本发明运用卡尔曼滤波器原理对交通流经典聚集查询方法进行改进,通过校正状态先验估计以获得后验估计的方法,利用桶的频率最优估计计算异常点聚集值,有效地抑制异常点的最大相对误差,为聚集查询方法的可用性提供可靠保障。
发明内容
本发明所要解决的技术问题是针对现有近似聚集查询技术忽略了能够产生最大相对误差的不足,采用运用卡尔曼滤波器原理通过校正状态先验估计以获得后验估计的方法,利用桶的频率最优估计计算异常点聚集值,提出了一种交通数据流的聚集查询方法及系统。
本发明为实现上述发明目的采用如下技术方案:
交通数据流的聚集查询方法,包括如下步骤:
步骤1,采集移动对象信息,将移动对象信息转化为计算机可处理的数据形式,在系统时间戳到来时数据流;
步骤2,在系统时间戳到来时生成、更新索引文件:
步骤2-1,初始化第一个系统时间戳的数据流生成的索引文件:采用合理直方图将数据空间分割为ω·ω的单元,以当前时间戳内单元内的移动对象数量表示该单元的频率,再将频率相似的邻近单元组成一个桶,形成n个桶,0<n≤B,ω为分辨率,B为桶数目的上限,
对于每个桶:以桶中所有单元的平均频率作为该桶的频率,计算该桶中各单元平均频率方差的平均值、该桶的方差以及卡尔曼增益;
步骤2-2,在下一系统时间戳到来时,利用卡尔曼滤波原理更新索引文件:
步骤2-2-1,当第c单元中的数据变化时,记数据变化量为d,更新第c单元的频率Fc=Fc+d,其中:为前一时间戳单元c的频率,1≤c≤ω2,d为任意实数;
步骤2-2-2,遍历当前时间戳的索引文件找到包含数据量变化单元的桶,对于第b个桶,第b个桶包含有nb个单元,b<n,nb<ω·ω:
更新第b个桶的频率fb:,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410378094.6/2.html,转载请声明来源钻瓜专利网。