[发明专利]一种拼音的长句连打输入方法及其系统在审

申请号：	201610029530.8	申请日：	2016-01-16
公开（公告）号：	CN105718070A	公开（公告）日：	2016-06-29
发明（设计）人：	周诚	申请（专利权）人：	上海高欣计算机系统有限公司
主分类号：	G06F3/023	分类号：	G06F3/023
代理公司：	上海晨皓知识产权代理事务所(普通合伙) 31260	代理人：	成丽杰
地址：	201203 上海市浦东新区自由***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种拼音长句连打输入方法及其系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及输入法领域，特别涉及拼音输入。

背景技术

随着计算机技术的不断发展和进步，拼音输入法的技术也有了进步和提高，特别是拼音的长句连打输入，现有技术是根据上下文在给定拼音条件下找到一个最优的句子，可将其视为一个动态规划问题，找到最短路径。其核心技术为采用隐马尔科夫模型，利用统计自然语言的处理方式进行运算和处理，得到最优的句子。马尔科夫的缺点在于它的独立性假设，其假设忽略了时刻发生的事件与时刻之前所有事件之间的联系，但也正是因为有了这样的假设，使得算法变得简单明了。隐马尔科夫模型采用生成式的联合概率模型来求解这种条件概率问题，这种方法不适合处理很多特征描述观察序列的情况。马尔科夫的假设，致使模型的阶数越高时，反而不会给模型带来好的统计结果，即使阶数再提高，也无法覆盖所有的语言现象。所有这些缺陷，造成拼音长句连打的整句或者长句连打后的输出结果精准度不高。

发明内容

本发明的目的在于提供一种拼音的长句连打输入方法及其系统，通过建立双向隐马尔可夫BHMM模型，提高了拼音长句连打输出正确结果的精准度。

为解决上述技术问题，本发明的实施方式提供了一种拼音的长句连打输入方法，包含以下步骤：

预先建立双向隐马尔可夫BHMM模型；在所述BHMM模型中，长句中的每个汉字的出现概率由正向传播时该汉字及该汉字的前N个汉字在数据库中同时出现的次数，反向传播时该汉字及该汉字的后N个汉字在数据库中同时出现的次数决定；所述N为大于1的自然数；

持续接收用户输入的拼音码；

根据所述BHMM模型和所述持续接收到的拼音码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句；

输出所述获取的在该BHMM模型中出现概率最大的各汉字所组成的长句。

与此相应，本发明的另一个目的是提供拼音的长句连打输入系统，包含：客户端与云端服务器；

云端服务器包含：

模型建立模块，用于预先建立双向隐马尔可夫BHMM模型；在所述 BHMM模型中，长句中的每个汉字的出现概率由正向传播时该汉字及该汉字的前N个汉字在数据库中同时出现的次数，反向传播时该汉字及该汉字的后 N个汉字在数据库中同时出现的次数决定；所述N为大于1的自然数；

匹配模块，用于根据所述BHMM模型和来自所述客户端的持续接收到的拼音码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句；

返回模块，用于将所述匹配模块获取的长句返回至所述客户端；

所述客户端包含：

接收模块，用于持续接收用户输入的拼音码；

发送模块，用于将所述持续接收到的拼音码发送至所述云端服务器；

输出模块，用于输出所述云端服务器返回的所述长句。

本发明实施方式相对于现有技术而言，提供了一种拼音的长句输入方法和长句输入系统，通过建立双向隐马尔可夫BHMM模型，提高了在整句或者长句中拼音转换汉字时输出正确结果的精度。

另外，所述BHMM模型建立在云端服务器内；客户端将所述持续接收到的拼音码实时发送至所述云端服务器，由所述云端服务器根据BHMM模型和所述持续接收到的拼音码，实时获取所述长句，优化了拼音转化汉字的效率。

另外，所述根据BHMM模型和所述持续接收到的拼音码，获取在该 BHMM模型中出现概率最大的各汉字所组成的长句的步骤中，根据以下公式获取所述长句：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海高欣计算机系统有限公司，未经上海高欣计算机系统有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610029530.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种拼音的长句连打输入方法及其系统在审

专利文献下载