[发明专利]一种汉字输入方法和装置有效

申请号：	200910261064.6	申请日：	2009-12-17
公开（公告）号：	CN102103416A	公开（公告）日：	2011-06-22
发明（设计）人：	蔡衡;董恭谨;李洋	申请（专利权）人：	新浪网技术(中国)有限公司
主分类号：	G06F3/023	分类号：	G06F3/023
代理公司：	中国商标专利事务所有限公司 11234	代理人：	万学堂
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种汉字输入方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种汉字输入技术，尤其涉及一种汉字输入方法和装置。

背景技术

在打字的时候，我们需要使用输入法系统记录想要表达的信息，而这些信息中很大的一部分都是较长的句子，将拼音一次完整输入并得到想要的句子，这就需要使用输入法系统中的一个重要功能-智能组句。我们知道同一个拼音串可以对应多个词、词条或者句子，输入法系统为了更大可能的向用户提供该拼音所表达的信息，目前输入法系统主要根据词条出现的概率找到出现概率最大的词条、短语或者句子作为备选项。

在输入汉字的时候输入法系统提供的备选词一般是选择日常生活中出现概率较高的词条、词条以及英文单词按照降序排列的。当输入较长的句子时，就使用智能匹配算法组合出共现概率最大的句子作为备选项。例如在输入拼音串xian’cheng之后，根据该拼音串对应的各个词条出现的频率(或者概率)进行排序，“县城”会排在“现成”和“线程”前面，而“先乘”这样的词条因为出现次数较少，没有被记录到输入法系统的词库选中。

在输入一句话时，输入法系统会根据输入的拼音进行切分，再根据词出现的频率找到共现概率最大的句子。例如图1所示。

如图1所示，对于输入的拼音串“bushoufanshiqinrao”，经过对拼音串进行单汉字对应的拼音子串切分以后的结果是“bu’shou’fan’shi’qin’rao”，这些拼音子串可对应下列单字：“不收饭是亲绕”或者“部受烦事秦饶”等等，再根据单字拼成词，每一个词由一个长弧线标识。如图1所示，由字拼接成的词所对应的拼音子串有：“bushou”、“fanshi”、“qinrao”，其中，拼音子串“bushou”可对应“不受”、“不收”等词、拼音子串“fanshi”对应“凡是”、“凡是”等词、拼音子串“qinrao”对应“侵扰”等词。目前的方法是根据前后两个词A、B出现的概率P(A_i|A_i-1)，当前词条出现的概率P(A_i)，结合隐性马尔科夫模型，求得整句出现的最大概率。一般的公式为logP(S)=Σi=1m(a×logP(Ai|Ai-1)+b×logP(Ai)+K)]]>。根据以上的公式，可以计算出Weight(S1)、Weight(S2)......等的概率值，选择拥有最大概率P(S)的整句S作为智能组句的输出。

目前的技术虽然在一定程度上能够很好的满足智能组句的需求，但是还是会有一定的问题。现在的方法只是考虑了词出现的频率以及两个词的共现概率，并没有考虑词条的属性等其他关系。由于词条的数量是巨大的，二元组数量会成平方关系，当前的输入法系统为了将这些海量的关系存储在有限的空间当中，只能去掉一些不重要的关系。这在一定程度上影响了智能组句的准确率。而且，单一的使用词条之间的条件概率和出现的频率并不能很好的解决所有的问题。如图1所示，输入法系统很自然的将“不受凡事侵扰”，翻译成“不受凡是侵扰”。因此，在输入过程中，用户不得不更改输入结果，从而导致输入速度慢的问题。

发明内容

本发明的实施例提供了一种汉字输入方法和装置，可解决现有技术汉字输入速度慢的问题。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司，未经新浪网技术(中国)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910261064.6/2.html，转载请声明来源钻瓜专利网。

上一篇：矿用避难硐室的降温除湿装置
下一篇：适于煤炭综采大采高工作面过渡支架的单级侧护装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉字输入方法和装置有效

专利文献下载