[发明专利]一种整句生成方法及装置有效
申请号: | 200710178040.5 | 申请日: | 2007-11-23 |
公开(公告)号: | CN101158969A | 公开(公告)日: | 2008-04-09 |
发明(设计)人: | 张会鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京汇泽知识产权代理有限公司 | 代理人: | 王黎延 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 方法 装置 | ||
技术领域
本发明涉及汉字输入技术,特别是一种整句生成方法及装置。
背景技术
在打字的过程中,经常需要对已输入的文字进行修改,如删除个别的词句或插入个别的词句,这样,就需要根据新插入的词或词句生成新的整句。传统的输入法在句子中间插入词或句子与在其他场合输入时的处理方式并没有什么不同。目前比较常用的为最大概率法。下面以拼音输入法为例进行详细说明。
在拼音输入法中,一个汉语拼音串可以对应多个候选词。如“dajia”这个拼音串对应的候选词可以有:大家、打架、大甲、打假、大加等等。为了提高用户的输入体验,在设计输入法软件的时候需要为候选词进行一个合理的排序,一般是按照候选词的词频进行排序,如从“大家”到“大加”,词频逐渐减小。
最大概率法实现整句预测的基本原理是:对应用户输入的一串拼音串,一般存在着多种候选词语的组合方案,通常先找出对应这个拼音串可能出现的所有候选词,然后在这些候选词的组合中找到一个概率最大的组合方案作为最后的整句生成结果。
例如输入“womendoushipingfanren”拼音串,经过音节划分后的音节序列为“Wo’men’dou’shi’ping’fan’ren”,根据这个音节序列,查询该输入法下的拼音词典,得到图1所示的词组结构。其中,每一条弧线代表一个词。
从图1中可以看出,每一条弧线对应着一个或多个候选词,从上到下按照词频从高到低排序,而且每一条弧线都隐含有词频信息(图中没有标出),词频信息指的是拼音串所对应的所有候选词中词频最大的词的词频,图1虚线框中的词即为词频最大的词。在目前的输入法中,只给用户提供一个候选整句信息,只有词频最高的词才有效,也就是说词频排在第二位以后的词,比如:窝,门,斗士等,不会在最后的候选整句结果中出现。因此图1可以简化为图2。
根据图2所示,利用两点间最短路径算法求出概率最大的一条路径,即最有可能的候选词组合方案,作为最后的整句生成结果,并作为候选词窗口的第一位输出,在图2中以虚线标出。但是使用该方法,只能选择词频最高的词,如果第一候选词不正确,用户要重新选择每个词组,准确率不高。
发明内容
有鉴于此,本发明的主要目的在于提供一种整句生成方法及装置,能简单高效地生成整句,并能提高选词的准确率。
为达到上述目的,本发明的技术方案是这样实现的:
一种整句生成的装置,该装置包括:查询模块、第一缓冲区、第二缓冲区、整句输出模块;其中,
第一、第二缓冲区,分别用于存储当前拼音输入的上、下文;
查询模块,用于在词表中查询当前拼音输入的各候选词词频、各候选词与上下文词组共现词频;
整句输出模块,用于计算当前拼音输入的每个候选词与上下文共现的条件概率,并选择条件概率最大的候选词与上下文构成整句输出。
该装置还包括分词模块,用于根据输入法词表划分词组。
该装置还包括统计模块,用于统计单个词、共现词的词频,将统计结果存入词表。
一种整句生成的方法,该方法包括:
A、截取光标两侧上下文,并对所截取的上下文分别进行分词;
B、对当前拼音输入划分音节,获取每个音节的候选词;
C、在词表中查询各音节的全部候选词、各候选词词频、上下文单个词词频、各候选词与上下文的共现词频;
D、确定每个音节的候选词,并输出整句。
步骤A中根据缓冲区大小,截取光标两侧上下文,且遇到标点结束截取。
步骤A中所述分词为将上下文根据输入法词表分别划分为若干个词。
所述方法还包括:根据输入法词表,采用原始文本训练,存储共同出现的词的共现词频。
所述原始文本训练步骤包括:
选取若干文本并扫描;
对扫描结果进行分词;
统计分词结果,存储单个词、共现词频;
其中,共现词频词组中包含的词的个数,根据缓冲区的大小确定。
步骤D进一步包括:
D1、分别计算各音节候选词的条件概率;
D2、对每个音节选取条件概率最大的候选词,组成整句输出。
本发明所提供的整句生成方法及装置,在根据候选词生成整句时,考虑到当前候选词位置两侧的上下文,这样能充分利用输入上下文的信息,生成的候选结果准确率更高,从而提高了用户的输入体验。
附图说明
图1为现有输出整句的词组结构示意图;
图2为简化的现有输出整句的词组结构示意图;
图3为本发明装置示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710178040.5/2.html,转载请声明来源钻瓜专利网。