[发明专利]拼音输入法中长句的生成方法有效
申请号: | 201110039571.2 | 申请日: | 2011-02-17 |
公开(公告)号: | CN102081677A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 陈翔 | 申请(专利权)人: | 珠海全志科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F3/023 |
代理公司: | 珠海智专专利商标代理有限公司 44262 | 代理人: | 张中 |
地址: | 519080 广东省珠海市软*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拼音输入法 长句 生成 方法 | ||
技术领域
本发明涉及中文输入法领域,尤其涉及一种在拼音输入法中长句的生成方法。
背景技术
随着计算机、手机、电子阅读器等电子设备的普及,人们广泛应用电子设备进行文本的输入及输出。目前,人们广泛应用多种中文输入法在计算机或手机上输入中文汉字,其中最为常用的是拼音输入法和笔画输入法。目前大多拼音输入法软件都设置有一个拼音词库,当用户输入拼音串后,该软件通过查询拼音词库识别用户需要输入的汉字,并提供给用户选择。
很多拼音输入法不支持长句生成,当用户将一个长句的拼音串输入后,输入法软件仅能提供多个词组给用户进行选择,而不是根据拼音串生成一个长句提供给用户选择,导致用户需要进行多次选择才能输入一个完整的句子。若用户使用手机输入长句,则选词所消耗的时间更长,不利于用户的操作。
例如,公开号为CN101122901A的中国发明专利申请公开了一种名为“中文整句生成方法及装置”的发明创造,该整句生成方法首先对用户输入的拼音串进行分割,如用户输入“zhejianwoshihenda”的拼音串,该方法根据音节将拼音串分割成多个拼音,获得“zhe’jian’wo’shi’hen’da”的多个拼音,然后通过查询词库获得“zhe’jian”拼音组对应的汉字,提供给用户选择,在用户选择后生成该词语。然后再获取后面的拼音生成候选词,生成候选词时先获取上一次生成的候选词,并根据上次生成的候选词与当前的拼音构成有向图,基于有向图生成当此的候选词。
由于该方法需要根据用户选取的上一候选词来判断当前拼音所需生成的候选词,因此需要用户进行多次选择才能实现长句的输入。此外,该方法生成候选词的过程中,是根据拼音串由前至后进行拼音组的识别,这容易将由多个汉字组成的词语拆分,无法给用户提供最准确的候选词,也导致用户选词的次数增多,造成用户中文输入的效率低下,给用户的输入操作带来极大的不便,上述缺陷在使用手机输入中文时更为明显。
发明内容
本发明的主要目的是提供一种能准确生成长句的拼音输入法中长句生成方法。
本发明的另一目的是提供一种输入效率较高的拼音输入法中长句生成方法。
为了实现上述的主要目的,本发明提供的拼音输入法中长句生成方法包括建立拼音词库,该拼音词库包括长词词库、短词词库以及单字表,对用户输入的拼音串进行分割,形成多个拼音,并且,通过查询长词词库确定拼音串中包含的四个或四个以上汉字组成的词语,通过查询长词词库以及短词词库,查找拼音串剩余的拼音中可能存在的三个汉字组成的三字词以及两个汉字组成的双字词,并计算每一三字词以及每一双字词的可选价值,依据每一个三字词的可选价值以及每一个双字词的可选价值高低确定拼音串中剩余拼音中包含的所有三字词以及双字词,通过查询单字表确定拼音串仍未被确定的拼音所对应的单字。
由上述方案可见,本发明的方法不需要根据用户上次生成的候选词生成当前的词语,也就是无需用户进行多次选择生成长句。并且,生成长句的过程中,首先对字数较多的词语进行识别,然后对字数较少的词语识别,最后是对单字进行识别。由于字数越多的拼音组对应词语的候选词越少,生成的词语准确率越高,通过上述方法可大大提高对拼音组的识别准确率,生成的长句准确率也就越高。
一个优选的方案是,确定三字词的步骤是:计算三字词的可选价值,并选取拼音串中与三字词对应的长词拼音组,将与该长词拼音组相邻的一个拼音跟该长词拼音组成两个相邻的短词拼音组,通过查询短词词库获得相邻的短词拼音组各自对应双字词的短词频率,使用双字词的短词频率计算相邻双字词的可选价值,若三字词的可选价值大于相邻双字词的可选价值,则选取三字词,否则,选取相邻双字词。
由此可见,通过对三字词与相邻双字词可选价值的比较确定选取三字词还是相邻双字词,可更准确地选取长句中的词语,减少用户选词的麻烦,方便用户操作,从而提高中文输入的效率。
进一步的方案是,确定双字词的步骤是:在确定拼音串中所有三字词后,将剩余的拼音划分为多组两两相接的短词拼音组,计算每一短词拼音组对应的双字词的可选价值,依据双字词的可选价值高低确定拼音串的双字词。
可见,通过对两两相接短词拼音组对应双字词可选价值的比较,能准确地选取用户所需输入的双字词,提高长句生成的准确率。
再进一步的方案是,长词词库设有一个索引表,索引表包括有多个由三个字母组成的索引拼音,每一索引拼音对应有至少一个三字词。
这样,通过索引表查询三字词,能减少查找三字词所消耗的时间,提高长句生成的效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海全志科技有限公司,未经珠海全志科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110039571.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:培训管理系统
- 下一篇:钢筋无接头下料加工制作生产线