[发明专利]一种修正用户词库的方法和系统有效
申请号: | 201110314509.X | 申请日: | 2011-10-17 |
公开(公告)号: | CN103049458A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 张扬;王坚 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F3/023 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 修正 用户 词库 方法 系统 | ||
技术领域
本发明涉及输入法技术领域,特别是涉及一种修正用户词库的方法和系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,输入法已经成为用户与计算机交互的重要手段,不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。
现有的输入法一般通过提高系统词库中词条的更新程度以及词频信息的准确度,来提高用户输入字符时的效率。
随输入法软件安装包安装到用户机器上的词库往往是满足一般用户通用输入需要的基本词库,我们称之为系统词库。而对于各个用户输入中那些个性化的不具有普遍性的词条,比如自己亲友同事的姓名、称谓,自己熟悉的地名机构名,以及使用范围非常有限的专业术语等,在系统词库中一般是不予收录的。这种需求基本上是靠用户词库解决:在用户第一次(或若干次)输入自造词之后,输入法软件会把这些词条作为用户词记录下来。如果用户在今后再次输入,会将用户词作为一个候选展现出来,而且往往给予比系统词条更高的优先级进行展现。
有时用户输入中会存在输入错误(例如由于敲击键盘速度过快等原因),而现有输入法软件对错误输入和正确输入不予区分,就不可避免的对错误输入也进行学词,从而在用户词数据引入噪音。
比如用户希望输入shenme,意欲输出“什么”,结果不小心敲成“shenem”,上屏文字为“神恶魔”。而现有的输入法软件会认为“神恶魔”是用户的个性化输入,作为用户词保存下来。日积月累,这种因误输入而记录的用户词条越来越多,会造成如下问题:
1、记录大量本不需要记录的错误输入作为用户词,占据用户词空间,降低用户词查找匹配效率。
2、如果用户想输入的其他词条恰好与这些垃圾词条的输入编码(拼音、五笔等)相同,这些词条会排在比较靠前的位置,这势必会给用户输入带来干扰,影响用户体验。
腾讯公司申请号为200710302282的中国专利《一种更新用户词库的方法及装置》,提供了一个解决方案,可以在一定程度上解决前述的技术问题。
其主要方案是:用户先后进行了两次连续的编辑操作,并且用户在前一次编辑完成后进行了删除处理。如果这两次操作都在同一位置,并且两次输入的词条都具有同一编码(拼音全拼、拼音简拼或五笔)的话,则认定前一次输入为错误输入,使用后一次的输入来替换这次输入,同时更新用户词库信息。
例如,用户输入“nh”,由于失误,将“年号”作为输入字符上屏了,而后发现错误,将“年号”删除,重新输入“nhao”,并在候选项中选择了“年号”的更正字符“你好”重新作为输入字符上屏。200710302282的中国专利首先判断更正字符“你好”和原字符“年号”是否位置相同,并进一步判断更正字符“你好”是否存在于原字符“年号”的并列候选项中,如果都满足,则认定前一输入字符“年号”为错误输入。
但是该方案存在如下缺陷:
a、限定在同一位置的输入。这无疑限制了该方案的应用范围,用户光标变换的操作一直在频繁的发生。而用户自发的对输入的更正,并不局限于在同一位置的修改,编辑位置完全可能发生变动,例如,用户在写完一段话后检查时,才发现错误并返回加以更正是很正常的。
b、只考虑前后两次连续输入,并必须存在删除操作。首先,用户对输入的更正,可能并不是连续的,而是间断的;并且,对于IM(即时通信)、搜索引擎等应用场景中,原始输入是无法进行编辑的,即用户无法删除原输入字符,不存在删除操作。
总之,本申请希望使输入法软件能够修正用户词库,能够更智能的记录用户输入信息,尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音,并避免上述现有方案的限制。
发明内容
本发明所要解决的技术问题是提供一种修正用户词库的方法和装置,能够尽可能的避免对错误输入进行学词,减少在用户词库中的数据噪音。
为了解决上述问题,本发明公开了一种修正用户词库的方法,包括:检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,在输入编码上相同或相近,而文字不同;和/或,检查当前输入内容是否与用户已完成输入内容的全部或者其一部分,文字相同而输入编码不同;如果满足条件,则基于当前输入内容和纠错内容,对用户词库中的数据进行修正;所述纠错内容为已完成输入内容中与当前输入内容相对应的部分。
优选的,所述用户已完成输入内容为:用户在一个输入会话内的已完成输入内容。
优选的,,所述一个输入会话为:在当前客户端上,由当前输入法账户进行的输入行为;和/或,输入法软件绑定到一个应用程序内的输入行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110314509.X/2.html,转载请声明来源钻瓜专利网。