[发明专利]一种生成词库的方法、一种输入的方法和一种输入法系统有效
申请号: | 200710088278.9 | 申请日: | 2007-03-22 |
公开(公告)号: | CN101271459A | 公开(公告)日: | 2008-09-24 |
发明(设计)人: | 吕杰勇 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100084北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 词库 方法 输入 输入法 系统 | ||
技术领域
本发明涉及输入法系统数据处理领域,特别是涉及一种生成输入法词库的方法、一种智能选词输入的方法以及一种输入法系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,不同专业领域、不同兴趣以及使用习惯的用户对于输入法的智能性要求越来越高。为了满足用户的需求,现有的输入法系统采用了定制专业词库和用户词库两种方法。
定制专业词库的方法是基于不同专业领域的用户所用的字词、字词搭配关系、词频信息和/或句法的不同,为各类用户定制对应的专业词库,以微软拼音输入法为例,在这种输入法中,其系统词库按照学科领域将词库分为医学类词库、电子类词库、IT类词库等。当用户进行输入时,可以采用预选的方式选择所需的专业词库,例如,打开输入法系统的选项从中选择电子类词库,然后由输入法程序动态加载这个电子类词库,在用户的输入过程中,根据用户输入的编码字符串直接从电子类词库中获取到相应的候选字词并输出,从而提高用户在进行专业领域字词输入时的输入效率。然而,如果用户需要使用这种专业词库,需要在本地进行加载,还需要中断输入过程来进行,操作复杂,用户体验差;并且占用用户的存储空间;并且,这种专业词库中的字词及词频还可能存在相互之间或者与通用词库重合的情况,还会导致资源浪费、效率降低等问题;而且,这种专业词库侧重的是专业领域,并不符合大多数普通用户的日常输入习惯,因此,这种输入法系统的智能性仍远远不能满足用户的需求。
用户词库的形成方法通常包括以下步骤:记录用户输入的字词,学习某个用户适用的词汇;通过一段时间地不断学习,将词库逐渐收敛到某个用户输入的最佳状态,从而形成用户词库。显然,这种用户词库的形成过程是一个漫长的过程,是不可能在短时间内形成的;并且,由于某安装有输入法系统的PC或其它装置的用户不一定是唯一的,输入法系统学习到的输入记录并不具有通用性,即使形成有效的用户词库也仅仅是对于在安装有该输入法系统的同一PC或其它装置上使用的个别用户有效,不可能影响大多数普通用户,显然,这种输入法系统的智能性也远远不能满足用户的需求。
因此,现阶段需要本领域技术人员迫切解决的一个技术问题就是,如何改变现有输入法系统的智能性不高的现状,提供一种满足用户输入需求的智能输入法系统。
发明内容
本发明所要解决的技术问题是提供一种输入法词库的生成方法和一种智能选词输入的方法,在不增加用户操作的前提下,就能够达到提高输入法智能性的目的。
本发明另一个目的是提供一种输入法系统,用于保证上述方法的应用及实施。
为了解决上述技术问题,本发明实施例公开了一种输入法词库的生成方法,包括:
获取字词的通用词频信息;
按照预置类别获取相应类别的语料信息,将所述字词在所述语料信息中进行统计,获得所述字词的类别信息及类别特征值;
记录所述字词对应的词频信息、类别信息及类别特征值,形成输入法词库。
优选的是,所述词频信息为词频和/或字词搭配的连接参数。
优选的是,通过以下步骤获得所述类别信息和类别特征值:
统计所述字词在所述各个类别的语料信息下的分类词频信息;
根据所述字词的分类词频信息与所述字词在词库中的通用词频信息计算类别特征值,如果所述类别特征值大于或等于一定阈值,则针对该字词记录所述类别特征值及其对应的类别信息。
优选的是,通过以下步骤获得所述类别信息和类别特征值:
统计所述字词在所述各个类别的语料信息下的分类词频信息;
根据所述字词的分类词频信息与所述字词在词库中的通用词频信息计算类别特征值,并针对该字词记录所述类别特征值及其对应的类别信息。
本发明实施例还公开了一种智能选词输入的方法,包括:
确定输入用户的当前有效类别;
根据用户输入的编码字符串在所述词库中获取候选字词,所述词库包括词频信息、类别信息及其相应的类别特征值,所述类别信息及其相应的类别特征值通过在相应类别的语料信息中对该字词进行统计而获得;
根据所述候选字词在当前有效类别下的类别特征值计算所述候选字词相应的输出权重值;
根据所述候选字词的输出权重值以及所述候选字词在词库中的通用词频信息进行排序,并根据排序结果输出所述候选字词。
优选的是,所述有效类别为一个或多个类别。
优选的是,通过以下步骤获得所述类别信息和类别特征值:
统计所述字词在所述各个类别的语料信息下的分类词频信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710088278.9/2.html,转载请声明来源钻瓜专利网。