[发明专利]一种对中文句子输入法的优化系统及方法有效
申请号: | 201010526953.3 | 申请日: | 2010-10-25 |
公开(公告)号: | CN102455786A | 公开(公告)日: | 2012-05-16 |
发明(设计)人: | 周进华;颜晓蔚;万磊;周志彬;孙国勇;陆灿江;赵丹尼 | 申请(专利权)人: | 三星电子(中国)研发中心;三星电子株式会社 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 牛峥;王丽琴 |
地址: | 210008 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 句子 输入法 优化 系统 方法 | ||
技术领域
本发明涉及计算机的中文输入技术,特别涉及一种对中文句子输入法的优化系统及方法。
背景技术
目前,在计算机进行中文输入,出现了中文句子的输入。中文句子的输入就是计算机接收到用户输入的拼音串,将该拼音串翻译为对应的汉语句子。
图1为现有技术的中文句子输入法的系统,包括:输入法引擎模块、识别翻译模块、候选中文句子列表显示模块、选择模块及输出模块,其中,
输入法引擎模块,用于按照设定的输入法解析得到用户输入的拼音串,发送给识别翻译模块;
识别翻译模块,用于对输入法引擎模块输入的拼音串,进行识别翻译后,得到多个候选的中文句子,根据某种策略,比如依据汉语语言模型评分,进行排序,得到对应的候选中文句子列表,发送给候选中文句子列表显示模块;
候选中文句子列表显示模块,用于显示候选中文句子列表,由选择模块控制选择得到一个中文句子,通过输出模块输出;
选择模块,用于选择候选中文句子列表显示模块中的一个最符合用户要求的中文句子。
在这个系统中,识别翻译模块是至关重要的,其作用实际上就是拼音串到中文句子的转换过程,可以采用噪声信道模型进行描述:
在公式(1)中,Y表示汉语拼音串,H表示汉字串。通常为了方便,称P(Y|H)为音-字转换模型,称P(H)为汉语的语言模型。
在中文句子的输入过程中,由于汉语中同音字及多音字很多,而且通常输入的拼音串不带音调,一个拼音对应很多汉字,所以一个拼音串对应的字就可以组合出很多的候选中文句子。为了从无数的候选中文句子中选择可能性最高的候选中文句子列表,就需要搜索过程,由于汉字组词灵活,搜索空间非常大,为了满足用户对响应时间的要求,搜索过程中就会不断剪枝,最后只能给出可能性最高的一个候选中文句子列表供用户选择,通常这种候选中文句子列表为n-best,表示最好的前n个候选中文句子。
虽然现有的中文句子输入法的系统在生成候选中文句子列表的过程中采用了一些技术手段,比如采用公式(1)根据设置的汉语语言模型对候选中文句子进行翻译,但是还有如下问题:
1)对于一些因素或特征,比如:语言模型,对候选中文句子的排序有很大影响,但是由于受响应时间或技术限制,更高阶的语言模型不能用来对候选中文句子进行排序;
2)识别翻译模块使用的汉语语言模型和音-字转换模型都是采用设定的训练工具利用大众语料库训练出来的,由于大众语料库中汉语词汇和表达都很丰富,考虑到响应用户的时间要求,采用的短语的长度及模型的阶数都比较小,从而影响了对候选中文句子排序的准确性;
3)识别翻译模块采用的汉语语言模型和音-字转换模型无法对中文句子的语法、语义进行约束,所以会影响对候选中文句子排序的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子(中国)研发中心;三星电子株式会社,未经三星电子(中国)研发中心;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010526953.3/2.html,转载请声明来源钻瓜专利网。