[发明专利]一种机器与人工翻译相融合的口语翻译方法和装置有效
申请号: | 201410090457.6 | 申请日: | 2014-03-12 |
公开(公告)号: | CN104050160B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 高鹏 | 申请(专利权)人: | 北京紫冬锐意语音科技有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 宋焰琴 |
地址: | 100191 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 人工 翻译 融合 口语翻译 方法 装置 | ||
1.一种机器与人工翻译相融合的口语翻译方法,其特征在于,包括:
步骤1、识别连续的语音段落,并对其进行断句切分,得到以句子为单位的输入文本;
步骤2、根据所述输入文本进行数据库搜索,查找是否有对应的目标语句,若有则直接将目标语句以语音输出,否则转步骤3;
步骤3、使用机器翻译对所述输入文本进行翻译得到目标语句,并对所述目标语句进行置信度打分;
步骤4、由人工翻译所输入文本获得目标语句;
步骤5、根据所述机器翻译的翻译置信度评估以及人工翻译的质量进行评估,并采用语音合成的方法将评估较好的翻译目标语句生成韵律可调的语音输出。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中进行断句切分,得到以句子为单位的输入文本具体包括:
将语音段落为单元输入的连续语音以韵律为主要特征进行切分断句,并结合语音的自动识别、标点符号的自动添加进行断句切分,且在不损失识别率的前提条件下进行。
3.根据权利要求1所述的方法,其特征在于,步骤2具体包括:
对每一个输入文本,采用融合语义信息的基于向量空间模型的TF-IDF方法计算输入文本与数据库中语句的相似度,进而得到目标语句。
4.根据权利要求1所述的方法,其特征在于,所述步骤3中采用基于层次短语的统计方法的机器翻译系统,输出包含置信度度量的目标语句,其具体过程包括:
从双语语料库中抽取海量对齐短语片断,作为知识源“记忆”在存储介质上,对语音识别出的输入文本利用搜索算法匹配短语片段并组合成要翻译的目标语句;并且融合基于强制对齐模型参数训练的置信度计算方法,为每个目标语句生成置信度分数。
5.根据权利要求1所述的方法,其特征在于,在执行步骤4之前还需要如下判断:计算输入文本的复杂度,并结合用户的类别确定是否需要人工翻译。
6.如权利要求1-4任一项所述的方法,其特征在于,步骤1中根据不同语言模型的识别概率判断是否断句,其中所述语言模型识别概率为已识别字符串的历史概率、已识别字符串最后字符为句尾的概率以及第一个未识别字符串为语句开始的概率之乘积。
7.如权利要求4所述的方法,其特征在于,所述基于层次短语的统计翻译具体指从源语言串到目标串的多个推导生成过程中找出概率最大的推导过程,将该推导过程对应的目标串作为机器翻译的结果输出。
8.如权利要求1、4任一项所述的方法,其特征在于,步骤3中通过支持向量机将将翻译过程中源语言船和目标串的困惑度、长度融合学习,进而对最终的目标语句进行置信度打分。
9.一种机器与人工翻译相融合的口语翻译装置,其特征在于,包括:
语音识别与碎片化模块,识别连续的语音段落,并对其进行断句切分,得到以句子为单位的输入文本;
模版检索和替换模块,根据所述输入文本进行数据库搜索,查找是否有对应的目标语句,若有则直接将目标语句以语音输出,否则进入第一翻译模块;
基于层次短语的机器翻译模块,使用机器翻译对所述输入文本进行翻译得到目标语句,并对所述目标语句进行置信度打分;
智能的人工众包翻译模块,由人工翻译所输入文本获得目标语句;
质量评估模块,根据所述机器翻译的翻译置信度评估以及人工翻译的质量进行评估,并给出判定的最后翻译结果;
语音合成输出模块,采用语音合成的方法将质量评估模块判定出的最后翻译结果生成韵律可调的语音输出。
10.如权利要求9所述的装置,其特征在于,还包括:
智能管理模块,通过计算输入句子的复杂度,并结合用户的类别决定是否启用人工翻译,同时将数据送入基于层次短语的机器翻译模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京紫冬锐意语音科技有限公司,未经北京紫冬锐意语音科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410090457.6/1.html,转载请声明来源钻瓜专利网。