[发明专利]机器同声传译输出音频动态合成方法、装置以及设备在审

申请号：	202011105784.6	申请日：	2020-10-15
公开（公告）号：	CN112233649A	公开（公告）日：	2021-01-15
发明（设计）人：	王兆育;苏文畅;国丽	申请（专利权）人：	安徽听见科技有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/033
代理公司：	北京维澳专利代理有限公司 11252	代理人：	常小溪;王立民
地址：	230088 安徽省合肥市高新区习***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	机器同声传译输出音频动态合成方法装置以及设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种机器同声传译输出音频动态合成方法、装置以及设备。具体是从当前同声传译场景出发，基于既定规则先明确是否要调节合成音频语速，在有必要进行语速干预时，实时获取当前原声语句的时长及相应译文文本可能的时长，并求取二者之差以及同传至现阶段的累积时差，接着考察当前时差和/或累积时差与各自对应的预设容忍度的关系，由此动态地调整翻译策略和/或确定出语速调节增益参数，这里即包含直接干预译文文本，或不干预译文文本而为译文文本附带语速变化系数此两种调节因子，最后利用此不同的调节因子完成同传音频的语音合成。本发明实现了对当前输出音频进行动态语速调节，解决了机器同传延时问题，有效提升机器同传的输出效果。

技术领域

本发明涉及同声传译领域，尤其涉及一种机器同声传译输出音频动态合成方法、装置以及设备。

背景技术

在经济全球化大背景下，国际性、多语种交流日趋频繁，在国际性会议交流中，同声传译成为当今世界普遍流行的翻译方式。当前，在国际性会议、大型正式会议以及非正式会议中，同传翻译需求量巨大，并且对同传行业内的从业人员的专业性和学术性要求较高，且产出效率相对较低，同时工作量较大，导致人工同传成本昂贵，与市场供求关系不匹配；另外，由于同传的高门槛，高阶同传译员需具备扎实的语言功底、成熟的会议经验等，短期内难以迅速复制。

随着智能语音技术的不断发展，语音识别和机器翻译取得长足的技术进步，因而目前本领域也在尝试采用语音转写、机器翻译以及语音合成技术搭建机器同传系统以解决当前会展市场高水平人工同传极其缺乏的问题。

但是，通过语音识别、机器翻译和语音合成实现的同步传译应用，对于众多会议场景的特定受众而言，还存在诸多亟待解决的问题，例如语音识别易受环境影响导致识别准确率低，进一步使得机器翻译结果不尽如人意。

另外，将机器翻译译文进行语音合成进行音频输出时并不流畅，时断时续。尤其地，本发明关注到同传合成语音与会议现场的原声会出现较大的延时，且这种延时会随着发言长度形成累积效应，当延迟较为明显时，同传听众难以与发言人形成及时的呼应，发言内容、演讲人员的情绪会与听众的反应和互动发生脱节，导致会议发言效果大大降低，参会人员也难以获得较佳的同传收听体验。

发明内容

鉴于上述，本发明旨在提供一种机器同声传译输出音频动态合成方法、装置以及设备，并相应地提出一种计算机可读存储介质以及计算机程序产品，用以针对特定的同声传译场景下的特定问题，实现对输出的译文音频进行动态调整及合成，从而提升机器同传的输出效果。

本发明采用的技术方案如下：

第一方面，本发明提供了一种机器同声传译输出音频动态合成方法，包括：

根据采集到的当前同声传译场景信息以及既定规则，判定是否需要调节合成音频语速；

若需要，则实时获取当前原声语句的第一时长，并预估相应于当前原声语句的译文文本合成音频后的第二时长；

求取所述第一时长与所述第二时长之间的时差，并统计本次同传阶段的累积时差；

根据所述时差和/或所述累积时差与对应的预设容忍度的关系，实时调整翻译策略和/或确定语速调节增益参数；

根据调整翻译策略后的译文文本和/或所述语速调节增益参数进行语音合成处理。

在其中至少一种可能的实现方式中，所述当前同声传译场景信息包括以下一种或多种：

当前原始语种类型以及翻译方向；

发言人的个性化信息；以及