[发明专利]即时通话语音的翻译方法、装置以及终端在审
申请号: | 201811289946.9 | 申请日: | 2018-10-31 |
公开(公告)号: | CN111199160A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 张乐杰;李玉峰 | 申请(专利权)人: | 西安欧思奇软件有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G10L15/22;G10L15/16 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 710065 陕西省西安市高新区*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 即时 通话 语音 翻译 方法 装置 以及 终端 | ||
本申请实施例提供了一种即时通话语音的翻译方法、装置及电子设备,该方法包括:获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧,然后确定各个语音帧分别对应的特征向量,然后基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,然后将语音识别结果翻译为与预设的目标语种匹配的翻译信息,并输出翻译信息。本申请实施例可以使得不同语种用户可以顺畅地进行即时通话,并可以降低使用不同语种的用户进行即时通话的复杂度,进而可以提升用户体验。
技术领域
本申请涉及语音智能翻译技术领域,具体而言,本申请涉及一种即时通话语音的翻译方法、装置及电子设备。
背景技术
随着科技的发展,手机已经成为人们日常通信交流的重要工具。随着国家同国家的贸易、交流的不断发展和进步,用户国际化的趋势必然导致不同国家用户在使用手机进行沟通时存在问题。
以中、英文母语用户为例,当使用中文的用户向使用英文的用户发送即时通话时,由于使用中文的用户可能听不懂英文,使用英文的用户可能听不懂中文,双方均需要将接收到的语音录制并输入至翻译软件后,进行翻译,才可以获知对方的意思,从而导致使用不同语种的用户进行即时通话的复杂度较高,用户体验较差。
发明内容
本申请提供了一种即时通话语音的翻译方法、装置及终端,用于解决使用不同语种的用户进行即时通话的复杂度较高以及用户体验较差的问题。技术方案如下:
第一方面,本申请提供一种即时通话语音的翻译方法,该方法包括:
获取待翻译的即时通话语音信号,并将待翻译的即时语音信号切分为预设个数的语音帧;
确定各个语音帧分别对应的特征向量;
基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果;
将语音识别结果翻译为与预设的目标语种匹配的翻译信息;
输出翻译信息。
具体地,基于神经网络的语音识别模型对各个语音帧分别对应的特征向量进行语音识别,以确定相应的语音识别结果,包括:
利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值;
对各个特征向量分别对应的状态值进行解码,得到即时通话语音信号对应的文本信息。
在一个可能的实现方式中,利用基于神经网络的语音识别模型对特征向量进行识别之前,方法还包括:
获取即时通话语音信号中的一个语音片段;
确定语音片段对应的语种;
利用基于神经网络的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值,包括:
利用与确定的语种对应的语音识别模型对特征向量进行识别,确定与各个特征向量分别对应的状态值。
具体地,将语音识别结果翻译为与预设的目标语种匹配的翻译信息,包括:
对语音识别结果进行处理,以确定语音识别结果对应的文本向量;
利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息。
具体地,将语音识别结果翻译为与预设的目标语种匹配的翻译信息,包括:
对语音识别结果进行处理,以确定语音识别结果对应的文本向量;
利用基于注意力机制的翻译模型对文本向量进行处理,得到与预设的目标语种匹配的文本信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安欧思奇软件有限公司,未经西安欧思奇软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811289946.9/2.html,转载请声明来源钻瓜专利网。