[发明专利]一种整句生成方法及装置有效
申请号: | 200710178040.5 | 申请日: | 2007-11-23 |
公开(公告)号: | CN101158969A | 公开(公告)日: | 2008-04-09 |
发明(设计)人: | 张会鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京汇泽知识产权代理有限公司 | 代理人: | 王黎延 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 方法 装置 | ||
1.一种整句生成的装置,其特征在于,该装置包括:查询模块、第一缓冲区、第二缓冲区、整句输出模块;其中,
第一、第二缓冲区,分别用于存储当前拼音输入的上、下文;
查询模块,用于在词表中查询当前拼音输入的各候选词词频、各候选词与上下文词组共现词频;
整句输出模块,用于计算当前拼音输入的每个候选词与上下文共现的条件概率,并选择条件概率最大的候选词与上下文构成整句输出。
2.根据权利要求1所述的整句生成的装置,其特征在于,该装置还包括分词模块,用于根据输入法词表划分词组。
3.根据权利要求1所述的整句生成的装置,其特征在于,该装置还包括统计模块,用于统计单个词、共现词的词频,将统计结果存入词表。
4.一种整句生成的方法,其特征在于,该方法包括:
A、截取光标两侧上下文,并对所截取的上下文分别进行分词;
B、对当前拼音输入划分音节,获取每个音节的候选词;
C、在词表中查询各音节的全部候选词、各候选词词频、上下文单个词词频、各候选词与上下文的共现词频;
D、确定每个音节的候选词,并输出整句。
5.根据权利要求4所述的整句生成的方法,其特征在于,步骤A中根据缓冲区大小,截取光标两侧上下文,且遇到标点结束截取。
6.根据权利要求4所述的整句生成的方法,其特征在于,步骤A中所述分词为将上下文根据输入法词表分别划分为若干个词。
7.根据权利要求4所述的整句生成的方法,其特征在于,所述方法还包括:根据输入法词表,采用原始文本训练,存储共同出现的词的共现词频。
8.根据权利要求7所述的整句生成的方法,其特征在于,所述原始文本训练步骤包括:
选取若干文本并扫描;
对扫描结果进行分词;
统计分词结果,存储单个词、共现词频;
其中,共现词频词组中包含的词的个数,根据缓冲区的大小确定。
9.根据权利要求4所述的整句生成的方法,其特征在于,步骤D进一步包括:
D1、分别计算各音节候选词的条件概率;
D2、对每个音节选取条件概率最大的候选词,组成整句输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710178040.5/1.html,转载请声明来源钻瓜专利网。