[发明专利]一种语句生成方法及装置有效
申请号: | 201010120044.X | 申请日: | 2010-03-04 |
公开(公告)号: | CN102193639A | 公开(公告)日: | 2011-09-21 |
发明(设计)人: | 薛永刚;陈培军;秦吉胜;侯磊 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语句 生成 方法 装置 | ||
技术领域
本申请涉及汉字输入技术领域,尤其涉及一种语句生成方法及装置。
背景技术
输入法(Input Method Editor,IME)是利用键盘,根据一定的编码规则,实现汉字输入的一种方法,而拼音输入法则是利用键盘输入拼音,从而实现汉字输入的方法。在通过拼音输入法进行汉字输入的过程中,针对用户输入的拼音流,需要将该拼音流进行切分,切分为多个合法的拼音音节序列,并将切分后的每个拼音音节转换为对应的汉字,从而实现语句的输出。
当把用户输入的汉字切分为拼音音节序列时,由于每个拼音音节对应的候选词方案很多,因此根据用户输入的拼音流可能得到很多的语句。在现有技术中一般采用最大概率法从众多的语句中选择一个输出,即在多个候选词的组合中确定概率最大的一个组合方法,作为最后的语句输出结果。
如图1所示根据拼音流确定的多个候选词组合方案,当输入拼音流“dongtianhaoleng”并将拼音流切分为多个拼音音节序列时,每个音频音节对应不同的候选词,如图1所示,对于拼音音节“dong”其对应的候选词包括:动、懂……东等,对于拼音音节“tian”其对应的候选词包括:添、填……天等,对于拼音音节“hao”其对应的候选词包括:豪、号……好等,对于拼音音节“leng”其对应的候选词包括:棱、楞……冷等,并且对于两个拼音音节“冬天”其本身也对应很多候选词例如冬天、洞天……动天等。因此在根据最大概率法确定输出的语句时,一般选择概率较大的候选词组合,如图1虚线所示即为选择的概率最大的候选词组合“冬天好冷”。
由于在采用最大概率法进行语句输出时,选择概率最大的候选词组合,但是即使每个候选词的权重都很大,多个权重很大的候选词组合成的语句也可能并不是用户所需的语句,从而导致语句的生成结果准确性较低。
发明内容
有鉴于此,本申请实施例提供一种语句生成方法及装置,用以解决现有技术中拼音输入法生成的语句准确性低的问题。
本申请实施例提供的一种语句生成方法,包括:
将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之前的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
本申请实施例提供的一种语句生成装置,包括:
匹配模块,用于将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
分数确定模块,用于将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之前的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
语句生成模块,用于根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
本申请实施例提供的一种语句生成方法,包括:
将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之后的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
本申请实施例提供的一种语句生成装置,包括:
匹配模块,用于将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
分数确定模块,用于将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之后的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010120044.X/2.html,转载请声明来源钻瓜专利网。