[发明专利]一种数据处理方法、装置、设备和介质在审
申请号: | 201810637434.0 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108874175A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 孟可丰;贺亮;马鸣 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 词库 上屏 数据处理 时间段 装置设备 衰减 信息检索技术 干扰用户 权重 计算机 更新 管理 | ||
1.一种数据处理方法,其特征在于,包括:
根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
2.根据权利要求1所述的方法,其特征在于,根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例包括:
根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间;
根据上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近上屏时间与所述词库的最近一次的上屏时间之间的时间段。
3.根据权利要求1所述的方法,其特征在于,根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例包括:
根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度,确定所述词语的衰减比例。
4.根据权利要求1所述的方法,其特征在于,在根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例之前,还包括:
若词库中词语上屏的总次数大于设定上屏次数阈值,则获取词库中每个词语在所述词语的上屏时间段内的词库上屏次数。
5.根据权利要求1所述的方法,其特征在于,在根据所述词语的衰减比例对所述词库中各词语的权重进行更新之后,还包括:
若衰减后词语的权重小于设定清除权重阈值,则将所述词语从词库中删除。
6.根据权利要求1-5中任一权利要求所述的方法,其特征在于,还包括:
根据候选词序列中的候选词在所述候选词的上屏时间段内的词库上屏次数对所述候选词的权重进行衰减;
根据衰减后的权重确定所述候选词在候选词序列中的排序。
7.一种数据处理装置,其特征在于,包括:
衰减比例确定模块,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
权重更新模块,用于根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
8.根据权利要求7所述的装置,其特征在于,衰减比例确定模块包括:
上屏时间确定单元,用于根据词库中每个词语最近至少两次的上屏时间确定词语的最近上屏时间;
衰减比例确定单元,用于根据上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近上屏时间与所述词库的最近一次的上屏时间之间的时间段。
9.根据权利要求7所述的装置,其特征在于,衰减比例确定模块包括:
结合时间衰减单元,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,和词库中每个词语最近至少一次的上屏时间与当前时间之间的时间长度,确定所述词语的衰减比例。
10.根据权利要求7所述的装置,其特征在于,还包括:
触发条件判断模块,用于在根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例之前,若词库中词语上屏的总次数大于设定上屏次数阈值,则获取词库中每个词语在所述词语的上屏时间段内的词库上屏次数。
11.根据权利要求7所述的装置,其特征在于,还包括:
词语清理模块,用于在根据所述词语的衰减比例对所述词库中各词语的权重进行更新之后,若衰减后词语的权重小于设定清除权重阈值,则将所述词语从词库中删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810637434.0/1.html,转载请声明来源钻瓜专利网。