[发明专利]处理方法、装置和机器可读介质有效
申请号: | 201710633614.7 | 申请日: | 2017-07-28 |
公开(公告)号: | CN110019657B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 姜里羊;王宇光;陈伟 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 方法 装置 机器 可读 介质 | ||
本发明实施例提供了一种处理方法、装置和机器可读介质,其中的方法具体包括:依据待处理的多个数据项,确定实数集合;所述实数集合包括多个非负的实数;获取所述实数集合中各实数在预置多进制下的符号位;按照从高符号位到低符号位的顺序,对所述实数集合中各实数的当前符号位进行统计,得到对应的统计结果;依据所述统计结果,从所述实数集合中获取最大或者最小的若干个目标实数。本发明实施例可以降低从该实数集合中获取最大或者最小的若干个目标实数所需的运算量,且可以提高最大或者最小的若干个目标实数的获取效率。
技术领域
本发明涉及信息检索技术领域,特别是涉及一种处理方法和装置、一种用于处理的装置、以及一种机器可读介质。
背景技术
在信息检索技术领域,对于符合检索条件的多个信息,通常需要从多个信息中获取某种指标最大或者最小的K(K为正整数)个信息。以机器翻译场景下的信息检索为例,若机器翻译场景对应的源语言和目标语言分别为中文和英文,则在针对某个位置的中文词从英文词典中检索得到符合检索条件的多个英文单词后,可以依据概率分布这一指标,从多个英文单词中获取概率分布最大的K个英文单词。
现有方案从多个信息中获取某种指标值最大或者最小的K个信息的过程可以包括:利用例如双调排序、或基数排序的排序算法,依据某种指标值对多个信息进行排序,并根据排序结果选取某种指标值最大或者最小的K个信息。
然而,排序算法通常需要比较待排序的每个信息的指标值之间的大小关系,这在待排序信息的数量较多时,导致排序速度较慢,进而导致某种指标值最大或者最小的K个信息的获取效率较低。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的处理方法、处理装置、用于处理的装置、以及一种机器可读介质,本发明实施例可以降低从该实数集合中获取最大或者最小的若干个目标实数所需的运算量,且可以提高最大或者最小的若干个目标实数的获取效率。
为了解决上述问题,本发明公开了一种处理方法,包括:
依据待处理的多个数据项,确定实数集合;所述实数集合包括多个非负的实数;
获取所述实数集合中各实数在预置多进制下的符号位;
按照从高符号位到低符号位的顺序,对所述实数集合中各实数的当前符号位进行统计,得到对应的统计结果;
依据所述统计结果,从所述实数集合中获取最大或者最小的若干个目标实数。
可选地,所述方法的至少一个步骤通过图形处理单元GPU执行。
可选地,所述预置多进制包括:二进制、八进制、十进制或者十六进制。
可选地,所述方法还包括:
在符合预置条件时,停止所述按照从高符号位到低符号位的顺序、对所述实数集合中各实数的当前符号位进行统计。
可选地,所述依据所述统计结果,从所述实数集合中获取最大或者最小的若干个目标实数,包括:
依据所述统计结果更新第一标志位集合和第二标志位集合中的至少一种;其中,所述第一标志位集合包括:用于表征所述实数集合中各实数是否需要被统计的第一标志位;所述第二标志位集合包括:用于表征所述实数集合中各实数是否为最大目标实数的第二标志位;
依据所述第二标志位集合,从所述实数集合中获取最大或者最小的若干个目标实数。
可选地,所述预置多进制为二进制,所述第一标志位集合中各第一标志位的初始值均为第一标志值,所述第二标志位集合中各第二标志位的初始值均为第三标志值;
所述按照从高符号位到低符号位的顺序,对所述实数集合中各实数的当前符号位进行统计,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710633614.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新建词条相关内容智能推送方法和系统
- 下一篇:检索项的生成方法及相关装置