[发明专利]用于对表意字符的输入字符串进行自动纠错的方法有效
申请号: | 200710101134.2 | 申请日: | 2007-04-29 |
公开(公告)号: | CN101295293A | 公开(公告)日: | 2008-10-29 |
发明(设计)人: | 韩客松;陈桂林 | 申请(专利权)人: | 摩托罗拉公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28;G06K9/20;G10L15/18 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李德山 |
地址: | 美国伊*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 表意 字符 输入 字符串 进行 自动 纠错 方法 | ||
1.一种用于对表意字符的输入字符串进行自动纠错的方法,所述方法包括:
使用主题词典将所述输入字符串分段以提供第一分段的字符串,其中,所述第一分段的字符串包括至少一个与所述主题词典不匹配的主题词典子字符串;
使用一般词典对所述不匹配的主题词典子字符串进行分段,以提供第二分段的字符串;
识别所述第二分段的字符串的目标子字符串;
生成所述目标子字符串的多个纠正候选字符串;
根据所述多个纠正候选字符串确定优选的纠正候选字符串;以及
通过用所述优选的纠正候选字符串替换所述目标子字符串,纠正所述输入字符串中的错误。
2.根据权利要求1所述的方法,其中,识别所述第二分段的字符串的目标子字符串的步骤包括:
识别至少两个相邻的实词表意字符;
识别在所述至少两个相邻的实词表意字符之前并且与所述至少两个相邻的实词表意字符相邻的第一观察点单词,以及在所述至少两个相邻的实词表意字符之后并且与所述至少两个相邻的实词表意字符相邻的第二观察点单词;以及
将所述目标子字符串识别为包括所述第一观察点单词、所述至少两个相邻的实词表意字符以及所述第二观察点单词。
3.根据权利要求1所述的方法,其中,生成所述目标子字符串的多个纠正候选字符串的步骤包括将所述目标子字符串分段。
4.根据权利要求1所述的方法,其中,根据所述多个纠正候选字符串确定优选的纠正候选字符串的步骤包括:
统计所述多个纠正候选字符串中的每一个纠正候选字符串中的单词数量;
通过在每一个纠正候选字符串中添加多个单词的最小编辑距离,生成每一个纠正候选字符串的总的编辑距离;
基于每一个纠正候选字符串中的单词数量并基于每一个纠正候选字符串的所述总的编辑距离,生成包括每一个纠正候选字符串的实用成本的实用成本组;以及
通过确定所述实用成本组中的最小实用成本确定优选的纠正候选字符串。
5.根据权利要求4所述的方法,其中,基于每一个纠正候选字符串中的单词数量并基于每一个纠正候选字符串的所述总的编辑距离,生成包括每一个纠正候选字符串的实用成本的所述实用成本组是基于下列公式进行的:
其中,P是纠正候选字符串,num(P)和n 是P中的单词数量,Wi是P的第i个单词,mined(Wi)是Wi的最小编辑距离。
6.根据权利要求4所述的方法,其中,使用所述主题词典和所述一般词典两者,生成每一个纠正候选字符串的所述总的编辑距离。
7.根据权利要求1所述的方法,其中,所述输入字符串包括多个汉语字符。
8.根据权利要求1所述的方法,其中,所述主题词典包括表意字符的图像或表述。
9.根据权利要求1所述的方法,其中,所述一般词典包括表意字符的图像或表述。
10.根据权利要求1所述的方法,其中,所述输入字符串是光学字符识别过程的输出或自动语音识别过程的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于摩托罗拉公司,未经摩托罗拉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710101134.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自检电路中断装置
- 下一篇:双重传输流产生装置和方法