[发明专利]一种拼音的长句连打输入方法及其系统在审
申请号: | 201610029530.8 | 申请日: | 2016-01-16 |
公开(公告)号: | CN105718070A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 周诚 | 申请(专利权)人: | 上海高欣计算机系统有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 201203 上海市浦东新区自由*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 拼音 长句 连打 输入 方法 及其 系统 | ||
技术领域
本发明涉及输入法领域,特别涉及拼音输入。
背景技术
随着计算机技术的不断发展和进步,拼音输入法的技术也有了进步和提 高,特别是拼音的长句连打输入,现有技术是根据上下文在给定拼音条件下 找到一个最优的句子,可将其视为一个动态规划问题,找到最短路径。其核 心技术为采用隐马尔科夫模型,利用统计自然语言的处理方式进行运算和处 理,得到最优的句子。马尔科夫的缺点在于它的独立性假设,其假设忽略了 时刻发生的事件与时刻之前所有事件之间的联系,但也正是因为有了这样的 假设,使得算法变得简单明了。隐马尔科夫模型采用生成式的联合概率模型 来求解这种条件概率问题,这种方法不适合处理很多特征描述观察序列的情 况。马尔科夫的假设,致使模型的阶数越高时,反而不会给模型带来好的统 计结果,即使阶数再提高,也无法覆盖所有的语言现象。所有这些缺陷,造 成拼音长句连打的整句或者长句连打后的输出结果精准度不高。
发明内容
本发明的目的在于提供一种拼音的长句连打输入方法及其系统,通过建 立双向隐马尔可夫BHMM模型,提高了拼音长句连打输出正确结果的精准 度。
为解决上述技术问题,本发明的实施方式提供了一种拼音的长句连打输 入方法,包含以下步骤:
预先建立双向隐马尔可夫BHMM模型;在所述BHMM模型中,长句中 的每个汉字的出现概率由正向传播时该汉字及该汉字的前N个汉字在数据库 中同时出现的次数,反向传播时该汉字及该汉字的后N个汉字在数据库中同 时出现的次数决定;所述N为大于1的自然数;
持续接收用户输入的拼音码;
根据所述BHMM模型和所述持续接收到的拼音码,获取在该BHMM模 型中出现概率最大的各汉字所组成的长句;
输出所述获取的在该BHMM模型中出现概率最大的各汉字所组成的长 句。
与此相应,本发明的另一个目的是提供拼音的长句连打输入系统,包含: 客户端与云端服务器;
云端服务器包含:
模型建立模块,用于预先建立双向隐马尔可夫BHMM模型;在所述 BHMM模型中,长句中的每个汉字的出现概率由正向传播时该汉字及该汉字 的前N个汉字在数据库中同时出现的次数,反向传播时该汉字及该汉字的后 N个汉字在数据库中同时出现的次数决定;所述N为大于1的自然数;
匹配模块,用于根据所述BHMM模型和来自所述客户端的持续接收到 的拼音码,获取在该BHMM模型中出现概率最大的各汉字所组成的长句;
返回模块,用于将所述匹配模块获取的长句返回至所述客户端;
所述客户端包含:
接收模块,用于持续接收用户输入的拼音码;
发送模块,用于将所述持续接收到的拼音码发送至所述云端服务器;
输出模块,用于输出所述云端服务器返回的所述长句。
本发明实施方式相对于现有技术而言,提供了一种拼音的长句输入方法 和长句输入系统,通过建立双向隐马尔可夫BHMM模型,提高了在整句或 者长句中拼音转换汉字时输出正确结果的精度。
另外,所述BHMM模型建立在云端服务器内;客户端将所述持续接收 到的拼音码实时发送至所述云端服务器,由所述云端服务器根据BHMM模 型和所述持续接收到的拼音码,实时获取所述长句,优化了拼音转化汉字的 效率。
另外,所述根据BHMM模型和所述持续接收到的拼音码,获取在该 BHMM模型中出现概率最大的各汉字所组成的长句的步骤中,根据以下公式 获取所述长句:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海高欣计算机系统有限公司,未经上海高欣计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610029530.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:眼镜架
- 下一篇:一种建筑物结构改造信息化监测系统