[发明专利]拼音输入法中长句的生成方法有效
申请号: | 201110039571.2 | 申请日: | 2011-02-17 |
公开(公告)号: | CN102081677A | 公开(公告)日: | 2011-06-01 |
发明(设计)人: | 陈翔 | 申请(专利权)人: | 珠海全志科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F3/023 |
代理公司: | 珠海智专专利商标代理有限公司 44262 | 代理人: | 张中 |
地址: | 519080 广东省珠海市软*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拼音输入法 长句 生成 方法 | ||
1.拼音输入法中长句的生成方法,包括
建立拼音词库,所述拼音词库包括长词词库、短词词库以及单字表;
对用户输入的拼音串进行分割,形成多个拼音;
其特征在于:
通过查询所述长词词库确定所述拼音串中包含的四个或四个以上汉字组成的词语;
通过查询所述长词词库以及所述短词词库,查找所述拼音串剩余的拼音中可能存在的三个汉字组成的三字词以及两个汉字组成的双字词,并计算每一所述三字词以及每一所述双字词的可选价值,依据每一所述三字词的可选价值以及每一所述双字词的可选价值高低确定剩余的拼音中包含的所有三字词以及双字词;
通过查询所述单字表确定所述拼音中串仍未被确定的拼音所对应的单字。
2.根据权利要求1所述拼音输入法中长句的生成方法,其特征在于:
所述长词词库存储有多组由三个或三个以上拼音组成的长词拼音组,每一所述长词拼音组对应有至少一个长词,每一所述长词对应有长词频率。
3.根据权利要求2所述拼音输入法中长句的生成方法,其特征在于:
所述短词词库存储有多组由两个拼音组成的短词拼音组,每一所述短词拼音组对应有至少一个双字词,每一所述双字词对应有短词频率。
4.据权利要求3所述拼音输入法中长句的生成方法,其特征在于:
确定所述三字词的步骤是:计算所述三字词的可选价值,并选取所述拼音串中与所述三字词对应的长词拼音组,将与所述长词拼音组相邻的一个拼音跟所述长词拼音组成两个相邻的短词拼音组,通过查询所述短词词库获得所述相邻的短词拼音组各自对应双字词的短词频率,使用所述双字词的短词频率计算相邻双字词的可选价值,若所述三字词的可选价值大于所述相邻双字词的可选价值,则选取所述三字词,否则,选取所述相邻双字词。
5.根据权利要求4所述拼音输入法中长句的生成方法,其特征在于:
计算所述三字词可选价值的步骤是:计算所述长词频率的二次方根与设定系数的乘积。
6.根据权利要求4或5所述拼音输入法中长句的生成方法,其特征在于:
计算所述相邻双字词的可选价值步骤是:计算所述相邻双字词中的每一所述双字词的短词频率二次方根的乘积。
7.根据权利要求3至5任一项所述拼音输入法中长句的生成方法,其特征在于:
确定所述双字词的步骤是:在确定所述拼音串中所有三字词后,将剩余的拼音划分为多组两两相接的短词拼音组,计算每一所述短词拼音组对应的双字词的可选价值,依据所述双字词的可选价值高低确定所述拼音串的双字词。
8.根据权利要求1至5任一项所述拼音输入法中长句的生成方法,其特征在于:
所述长词词库设有一个索引表,所述索引表包括有多个由三个字母组成的索引拼音,每一所述索引拼音对应有至少一个所述三字词。
9.根据权利要求1至5任一项所述拼音输入法中长句的生成方法,其特征在于:
所述短词词库设有一个高频词库,所述高频词库包括多组由两个拼音组成的双字拼音组,每一双字拼音组具有唯一的拼音号,每一所述拼音号对应有一个所述双字拼音组对应的出现频率最高的双字词。
10.根据权利要求1至5任一项所述拼音输入法中长句的生成方法,其特征在于:
所述单字表设有一个高频字表,所述高频字表包括多个单字拼音,每一所述单字拼音对应有三个单字,所述三个单字分别是所述单字拼音位于句首、句中及句末时被选取频率最高的单字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海全志科技有限公司,未经珠海全志科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110039571.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:培训管理系统
- 下一篇:钢筋无接头下料加工制作生产线