[发明专利]一种数据处理方法、装置、设备和介质在审
申请号: | 201810637434.0 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108874175A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 孟可丰;贺亮;马鸣 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 词库 上屏 数据处理 时间段 装置设备 衰减 信息检索技术 干扰用户 权重 计算机 更新 管理 | ||
本发明实施例公开了一种数据处理方法、装置设备和介质,涉及计算机和信息检索技术领域。该方法包括:根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;根据所述词语的衰减比例对所述词库中各词语的权重进行更新。本发明实施例提供一种数据处理方法、装置设备和介质,实现了对词库中老旧的词语的管理,解决老旧词语干扰用户正常输入的问题。
技术领域
本发明实施例涉及计算机和信息检索技术领域,尤其涉及一种数据处理方法、装置设备和介质。
背景技术
随着数字时代的兴起,人们越来越习惯将资料、信息及文档电子化,日常交流也更倾向于通过电子邮件和即时通信软件进行。因此在电子时代,作为用户在电子设备上“书写”工具的输入法,也在人们的学习、工作及生活中占据着愈加重要的地位。
为了提高用户的输入效率,当今主流的输入法都会以自学习的方式将用户曾经输入的词(通常称为自造词)记录下来,以便以后的使用。这项技术让用户在输入自造词时不用再逐字的去拼凑。并且将权重高的自造词以前置的方式放在候选词序列的前列,以方便用户选择,从而大大降低了用户的输入成本。其中自造词的权重由自造词的使用词频决定。
然而,伴随用户对输入法使用时长的增长,越来越多的词开始被自造出来并且堆积在候选词的前列。一些老旧的自造词排在了用户真正期望输入的词的前面,从而干扰用户正常输入,降低用户输入效率。
发明内容
本发明实施例提供一种数据处理方法、装置设备和介质,以实现对词库中老旧的词语的管理,解决老旧词语干扰用户正常输入的问题。
第一方面,本发明实施例提供了一种数据处理方法,该方法包括:
根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数,确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:
衰减比例确定模块,用于根据词库中每个词语在所述词语的上屏时间段内的词库上屏次数确定所述词语的衰减比例,其中所述上屏时间段是所述词语的最近至少一次的上屏时间与所述词库的最近一次的上屏时间之间的时间段;
权重更新模块,用于根据所述词语的衰减比例对所述词库中各词语的权重进行更新。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据处理方法。
本发明实施例通过根据词语最近上屏时间与所述词库最近一次的上屏时间之间的时间段内,所述词库中词语上屏的数量,对词库中词语的权重进行衰减。避免老旧自造词排列在候选词序列的前列,影响用户输入。
同时,计算一个时间段内所述词库中词语上屏的数量的计算量相比,计算词语最近上屏时间与当前时间之间的时间长度的计算量小。又因为词库中存储有大量词语,所以基于时间段内所述词库中词语上屏的数量对词库中词语的权重进行衰减可以降低系统的运算量。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810637434.0/2.html,转载请声明来源钻瓜专利网。