[发明专利]一种字词输入方法及系统有效
申请号: | 201110079201.1 | 申请日: | 2011-03-30 |
公开(公告)号: | CN102135814B | 公开(公告)日: | 2017-08-08 |
发明(设计)人: | 张扬 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 逯长明,王宝筠 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字词 输入 方法 系统 | ||
技术领域
本发明涉及输入法技术领域,特别是涉及一种字词输入方法及系统。
背景技术
随着计算机、互联网等技术应用的越来越广泛,人们很多的日常工作和娱乐都在计算机上进行,用户越来越频繁地需要通过计算机输入信息而完成人机交互。对于中文、日文、韩文等用户而言,一般需要通过输入法程序与计算机进行交互。以中文用户为例,一般来说,用户输入的是一串字母(通常是汉字的拼音)或笔画等编码字符串,系统需要把它转换成相应的中文字符。
然而用户在进行字词输入的过程中可能存在较多的错误,这里涉及的输入错误,大致可以分为认知错误和非认知错误两类。认知错误是那些不知道欲输入的字词如何正确拼写,造成的输入错误,模糊音就属于认知错误这个范畴。而非认知错误是指,知道字词如何拼写,但是由于输入时手忙脚乱或者受制于输入设备等而造成了输入错误。
目前,一些输入法系统提供了纠错设置,参见图1,这种方法通常根据大量的用户输入数据训练生成纠错列表;在生成候选之前根据纠错列表中的规则进行强制纠错,例如,根据图1所示的纠错列表,如果用户的输入序列中出现了gn,便直接将其转换为ng。这种方法虽然在一定程度上实现了自动纠错,但也存在一些缺点,例如,纠错列表是默认预置的,并且列表中的错误片段与正确片段之间是一一对应的。在用户输入的过程中,会将命中了纠错列表的输入片段作为错误输入片段,纠错时,只能将纠错列表中与该错误输入片段对应的片段作为纠错结果。这种方法仅针对一些常见的输入错误比较有效,但是,对于实际应用中的一些不常见的输入错误,这种方法的有效性比较低。
因此,需要本领域技术人员迫切解决的一个技术问题就是:如何提供一种更有效、应用范围更广的纠错方案。
发明内容
本发明提供一种字词输入方法及系统,能够在在字词输入过程中,更有效地进行纠错,并且适用范围比较广泛。
本发明提供了如下方案:
一种字词输入方法,包括:
检测用户输入的编码字符串中存在的错误输入片段;
根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串;
将所述纠错候选字符串转换为输入文字。
其中,所述检测用户输入的编码字符串中存在的错误输入片段包括:
根据当前语境,对所述用户输入的编码字符串进行分词,将得到的分词碎片确定为错误输入片段。
其中,所述检测用户输入的编码字符串中存在的错误输入片段包括:
如果所述用户输入的编码字符串中存在不属于所述合法字符组集合的字符组,或者基于合法字符组集合统计的合法概率小于阈值的字符组,则该字符组为错误输入片段。
优选地,所述合法字符组集合通过以下方式获得:从至少两个文字的合法编码字符串连接而成的字符串中抽取合法字符组。
其中,所述根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串包括:
对所述错误输入片段分别进行基于字符的替换、插入、删除及交换的处理;
如果处理后的片段属于所述合法字符组集合,则基于该处理后的片段生成纠错候选字符串。
优选地,所述根据预先获取的合法字符组集合,编辑所述错误输入片段,得到纠错候选字符串包括:
去除合法字符组中设定位置的至少一个字符,将其他剩余字符按设定顺序排列作为所述被去除字符的索引;
以合法字符组集合的若干个所述索引及对应的被去除字符组成反查字符组集合;
当需要对所述错误输入片段在所述设定位置进行字符的替换或插入时,根据所述错误输入片段以所述设定顺序生成查询串;
从所述反查字符组集合中获取以所述查询串为索引的字符,将该字符作为在所述设定位置替换或插入的字符,得到纠错候选字符串。
优选地,所述设定位置包括合法字符组中首字符位置以外的其他位置。
优选地,所述合法字符组集合及所述反查字符组集合以树形结构进行保存。
优选地,所述将纠错候选字符串转换为输入文字包括:
对所述纠错候选字符串进行评估;
根据评估的结果,对所述编码字符串及符合预置条件的纠错候选字符串进行转换,并向用户展现转换的结果。
优选地,还包括:
将所述用户输入的编码字符串发送到远端服务器,并接收所述远端服务器返回的纠错候选字符串。
优选地,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110079201.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:掺杂改性锆酸锶基中高压瓷介电容器材料
- 下一篇:一种治疗糖尿病的中药组合物