[发明专利]数据批量选择的方法、装置和计算机存储介质有效
申请号: | 201810425693.7 | 申请日: | 2018-05-07 |
公开(公告)号: | CN110457649B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 毛坤;张臻;李翀 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 范华英;毛威 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 批量 选择 方法 装置 计算机 存储 介质 | ||
本申请提供了一种数据批量选择的方法和装置,不需要对候选数据进行全排序,避免了对候选数据多次重复计算,节省了内存和带宽,提高系统效率。该方法包括:数据分析器统计候选数据中的数据所属的数据区间,以获取统计结果,该统计结果包括多个数据区间中的每个数据区间包含的数据的个数,该每个数据区间的区间范围总和等于该候选数据的数据分布区间范围;区间统计器根据该统计结果,对该每个数据区间包含的数据个数分别做累加,以得到累加结果,该累加结果为该每个数据区间包含的数据个数与该每个数据区间之前的所有数据区间包含的数据个数之和;批量选取器根据该累加结果,确定目标数据所在的目标数据区间,并输出属于该目标数据区间的候选数据。
技术领域
本申请涉及数据处理领域,并且更具体地,涉及一种数据批量选择的方法、装置和计算机存储介质。
背景技术
计算机在对数据进行处理前,一般都需要从海量的候选数据中确定目标数据,进而对该目标数据进行进一步的处理,如在“平安城市”大潮中从海量视频中找到目标人物或者车辆,又如在使用快速区域卷积神经网络Faster R-CNN作图片目标检测时,输入图片经由一系列卷积层以及全层连接后生成多个候选窗口,在该多个候选窗口中检测目标。现有技术中一般均采用对候选数据全排序,进而确定目标数据。对于超大规模的数据,单靠提供处理器主频来提升传统排序或选择算法的运算速度已经越来越难;但是现有分布式并行算法又存在重复计算、内存需求高、扩展性差等问题,导致选择/排序环节成为无法逾越、制约系统性能提升的瓶颈。
如何在海量的数据中准确快速的找到目标数据,是一项亟待解决的问题。
发明内容
本申请提供一种数据批量选择的方法和装置,不需要对候选数据进行全排序,避免了对候选数据多次重复计算,节省了内存和带宽,提高了系统效率。
第一方面,提供了一种数据批量选择的方法,该方法包括:数据分析器统计候选数据中的数据所属的数据区间,以获取统计结果,该统计结果包括多个数据区间中的每个数据区间包含的数据的个数,该每个数据区间的区间范围总和等于该候选数据的数据分布区间范围;区间统计器根据该统计结果,对该每个数据区间包含的数据个数分别做累加,以得到累加结果,该累加结果为该每个数据区间包含的数据个数与该每个数据区间之前的所有数据区间包含的数据个数之和;批量选取器根据该累加结果,确定目标数据所在的目标数据区间,并输出属于该目标数据区间的候选数据。
其中,区间统计器对每个数据区间包含的数据个数分别做累加可以采用分别对每个数据区间包含的数据个数做前缀和运算,以得到每个数据区间各自的累加结果。
可选地,该区间统计器可以采用前缀和prefix sum计算每个数据区间包含的数据个数的累加和。
因此,在本申请实施例中,实现了数据区间有序,但是每个数据区间内的数据无序,不需要对候选数据进行全排序,输出目标数据只需2次全并行扫描和1次并行累加计算就可完成批量选择,避免了对候选数据多次重复计算,节省了内存和带宽,提高了系统效率。
结合第一方面,在第一方面的某些实现方式中,该数据分析器可以是具有多核的处理器,也可以是多个并行处理器,还可以是一个多线程处理器,或者该数据分析器是该多核的处理器,该多个并行处理器和该多线程处理器的组合。
结合第一方面,在第一方面的某些实现方式中,该区间配置器可以是具有多核的处理器,也可以是多个并行处理器,还可以是一个多线程处理器,或者该区间配置器是该多核的处理器,该多个并行处理器和该多线程处理器的组合。
结合第一方面,在第一方面的某些实现方式中,该批量选取器可以是具有多核的处理器,也可以是多个并行处理器,还可以是一个多线程处理器,或者该批量选取器是该多核的处理器,该多个并行处理器和该多线程处理器的组合。
结合第一方面,在第一方面的某些实现方式中,每个数据区间对应一个计数器,该计数器用于记载该数据区间的个数,当该数据分析器确定一个数据属于该数据区间时,在该数据区间对应的计数器中加1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810425693.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置