[发明专利]一种汉字输入方法和装置有效
申请号: | 200910261064.6 | 申请日: | 2009-12-17 |
公开(公告)号: | CN102103416A | 公开(公告)日: | 2011-06-22 |
发明(设计)人: | 蔡衡;董恭谨;李洋 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 中国商标专利事务所有限公司 11234 | 代理人: | 万学堂 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉字输入 方法 装置 | ||
技术领域
本发明涉及一种汉字输入技术,尤其涉及一种汉字输入方法和装置。
背景技术
在打字的时候,我们需要使用输入法系统记录想要表达的信息,而这些信息中很大的一部分都是较长的句子,将拼音一次完整输入并得到想要的句子,这就需要使用输入法系统中的一个重要功能-智能组句。我们知道同一个拼音串可以对应多个词、词条或者句子,输入法系统为了更大可能的向用户提供该拼音所表达的信息,目前输入法系统主要根据词条出现的概率找到出现概率最大的词条、短语或者句子作为备选项。
在输入汉字的时候输入法系统提供的备选词一般是选择日常生活中出现概率较高的词条、词条以及英文单词按照降序排列的。当输入较长的句子时,就使用智能匹配算法组合出共现概率最大的句子作为备选项。例如在输入拼音串xian’cheng之后,根据该拼音串对应的各个词条出现的频率(或者概率)进行排序,“县城”会排在“现成”和“线程”前面,而“先乘”这样的词条因为出现次数较少,没有被记录到输入法系统的词库选中。
在输入一句话时,输入法系统会根据输入的拼音进行切分,再根据词出现的频率找到共现概率最大的句子。例如图1所示。
如图1所示,对于输入的拼音串“bushoufanshiqinrao”,经过对拼音串进行单汉字对应的拼音子串切分以后的结果是“bu’shou’fan’shi’qin’rao”,这些拼音子串可对应下列单字:“不收饭是亲绕”或者“部受烦事秦饶”等等,再根据单字拼成词,每一个词由一个长弧线标识。如图1所示,由字拼接成的词所对应的拼音子串有:“bushou”、“fanshi”、“qinrao”,其中,拼音子串“bushou”可对应“不受”、“不收”等词、拼音子串“fanshi”对应“凡是”、“凡是”等词、拼音子串“qinrao”对应“侵扰”等词。目前的方法是根据前后两个词A、B出现的概率P(Ai|Ai-1),当前词条出现的概率P(Ai),结合隐性马尔科夫模型,求得整句出现的最大概率。一般的公式为
目前的技术虽然在一定程度上能够很好的满足智能组句的需求,但是还是会有一定的问题。现在的方法只是考虑了词出现的频率以及两个词的共现概率,并没有考虑词条的属性等其他关系。由于词条的数量是巨大的,二元组数量会成平方关系,当前的输入法系统为了将这些海量的关系存储在有限的空间当中,只能去掉一些不重要的关系。这在一定程度上影响了智能组句的准确率。而且,单一的使用词条之间的条件概率和出现的频率并不能很好的解决所有的问题。如图1所示,输入法系统很自然的将“不受凡事侵扰”,翻译成“不受凡是侵扰”。因此,在输入过程中,用户不得不更改输入结果,从而导致输入速度慢的问题。
发明内容
本发明的实施例提供了一种汉字输入方法和装置,可解决现有技术汉字输入速度慢的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910261064.6/2.html,转载请声明来源钻瓜专利网。