[发明专利]一种方言语境的多语言翻译方法在审
申请号: | 201710368832.2 | 申请日: | 2017-05-23 |
公开(公告)号: | CN107248409A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 李伊甸;戴沛景 | 申请(专利权)人: | 四川欣意迈科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/04;G10L15/06;G06F17/28 |
代理公司: | 成都弘毅天承知识产权代理有限公司51230 | 代理人: | 徐金琼,刘东 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 方言 语境 语言 翻译 方法 | ||
技术领域
一种方言语境的多语言翻译系统及方法,用于方言和个性化语音的翻译,属于计算机语言翻译技术领域。
背景技术
在世界各国文化、经济、军事等各领域的交往中,语言的沟通显得尤为重要,为了准确的表达两种语言的意义长期以来在各种外事交往中主要还是以人翻译为主。近年来随着计算机及数字技术的快速发展,用计算机及数字技术做翻译工作已取得了很大的进步,各种优秀的计算机翻译系统不断涌现,特别在文字翻译方面已较完美。但在用计算机翻译系统做同声翻译方面由于各母语系下方言较多语境不同或个人发音的偏好导致误译率较高,不能准确表达源语音的意义。
在众多的语言翻译系统及翻译设备中都只能将源母语系中的相对标准的基语音翻译为目标语系的标准基语音。但在现实应用环境中由于需翻译的源语音在很多情况下为非标准语音,世界上各大母语系中每种母语系都有若干的地方方言,这导致计算机化的语言翻译系统因语境的不同有很高的误译率。
专利号为200820234990.5的专利,是通过提取方言语音的字、词句作为特征与标准基语音进行直接对比来找到方言语音对应的标准基语音,一旦说方言的人发音不准确,就容易造成翻译不准确,从而找不到对应的标准基语音,而且所要翻译的每句方言都需要存储,造成存储成本、运行硬件成本高及计算机运算速度慢等问题。
发明内容
本发明的目的在于:解决现有技术中的语言翻译工具不能准确的翻译方言,增加翻译的误译率的问题,提供了一种方言语境的多语言翻译方法。
本发明采用的技术方案如下:
一种方言语境的多语言翻译方法,其特征在于包括以下步骤:
步骤1、建立母语系下各种方言语音的特征码组成的特征码库;
步骤2、根据特征码与标准基语音特征码的差异产生方言的特征补偿码,组成特征补偿码库;
步骤3、用特征补偿码与其对应的源语音复合产生出对应母语系下的标准基语音;
步骤4、标准基语音转换成目标语言的语音或文本。
进一步,特征码库的建立方法包括以下步骤:
步骤1.1、获得母语系下各种方言语音样本;
步骤1.2、对方言语音样本进行预处理去掉冗余部分,通过带通滤波器进行预滤波处理后再通过一个高通滤波器进行预加重,对预加重后的方言语音样本减噪后乘以汉明窗后进行端点检测;
步骤1.3、将乘以汉明窗预处理后的方言语音样本进行频谱分析,然后进行特征提取,特征提取频谱分析后的方言语音样本的共振峰,基音周期特征,MFCC及LPCC参数特征码;
步骤1.4将获取的共振峰,基音周期特征,MFCC及LPCC参数特征码进行去冗余后对多个方言语音文件进行特征码的概率分布统计,找出其共同特性做为该方言语音的特征码要素;
步骤1.5将具有特征码要素的代码采用压缩方式重新编码为64字节的方言语音的特征码,将该特征码赋予检索号编入特征码库。
进一步,步骤1.3中对频谱分析后的方言语音的共振峰的提取步骤包括:
对频谱分析后的方言语音经过同态滤波后得到平滑的谱再对该谱求离散傅里叶变换,然后用DFT谱来提取语音信号的共振峰参数。
进一步,步骤1.3中对频谱分析后的方言语音的基音周期特征的提取步骤包括:
对频谱分析后的方言语音采用平均幅度差函数法来提取基音周期特征。
进一步,步骤1.3中对频谱分析后的方言语音的MFCC参数的提取步骤包括:
将频谱分析后的方言语音进行短时傅里叶变换得到其频谱,再求频谱幅度的平方得能量谱,用三角滤波均衡器进行带通滤波,滤波器的个数与临界带数相近,设滤波器数为M,滤波后得到的输出为:x(k),k=l,2,…,M,对滤波器组的输出取对数,然后作2M点逆傅里叶变换即可得到MFCC参数。
进一步,步骤1.3中对频谱分析后的方言语音的LPCC参数的提取步骤包括:
将频谱分析后的方言语音进行Z变换后对数模函数的反Z变换,通过信号的傅里叶变换,取模的对数,再求反傅里叶变换得到LPCC参数。
进一步,步骤2中特征补偿码库的建立采用以下步骤:
步骤2.1、获取母语系下的标准基语音样本,提取标准基语音的特征码;
步骤2.2、对母语系下方言语音特征码与标准基语音特征码进行分析比较,得出有泛意的各自概率分布差异频谱;
步骤2.3、将该差异频谱进行反码叠加运算得出方言语音的特征补偿码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川欣意迈科技有限公司,未经四川欣意迈科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710368832.2/2.html,转载请声明来源钻瓜专利网。