[发明专利]跨语句条件相干的语音编辑方法、系统及终端在审
申请号: | 202310146999.X | 申请日: | 2023-02-21 |
公开(公告)号: | CN116189653A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 郁程;李阳;祖伟钦;孙芳蕾;田政;汪军 | 申请(专利权)人: | 上海科技大学 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/08;G10L19/04;G10L19/20;G10L25/03 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 倪静 |
地址: | 201210 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 条件 相干 语音 编辑 方法 系统 终端 | ||
本发明的跨语句条件相干的语音编辑方法、系统及终端,通过具有将语音输入信息中的音频特征和上下文语义信息作为条件输入的变分自动编码器以及解码器的语音编辑模型,根据待编辑的语音信息获得对应的编辑梅尔谱图,能够高保真地重建原始波形的未修改区域。通过使用整体推断而非部分推断,拼接导致的衔接处不连贯得以被彻底避免。此外,与现有的部分推理编辑系统相比,本发明的整体推理方法不会消耗额外的资源。
技术领域
本发明涉及语音编辑领域,特别是涉及一种跨语句条件相干的语音编辑方法、系统及终端。
背景技术
语音编辑可应用于具有个性化语音需求和对语音自然度更高要求的各种领域,包括社交媒体上的视频制作、游戏和电影配音等。传统的语音编辑工具允许用户进行去噪、调整音量、剪切、复制和粘贴波形等功能。其中,当需要编辑的音频文本需要修改时,传统语音编辑工作会相对繁琐。尤其当不在音频转录文本中的新单词出现时,只能重新录制相应片段,再与原音频进行剪辑拼接。然而,录制环境的改变与说话者状态的变化,均可能导致重新录制的语音片段与原始语音在背景噪音、响度与音调节奏存在差异,剪辑拼接后的听感会不够自然。
为了减轻音频录制者与后期的工作量,基于文本转录的语音编辑是一种正在兴起的音频编辑技术。这一技术能够根据内容编辑者更改的文本,合成与原始音频的音调和音色相匹配的语音。因此,与其编辑原始音频,可以通过修改原始音频对应的文本转录来减轻编辑负担。
然而,现有基于文本转录的语音编辑系统在推理时,均采用了部分推理,而非整体推理。具体来说,现有编辑系统的直接输出完整的波形或梅尔谱图,其与编辑后的整句转录文本是相对应的。但是为了提高与原始音频的相似性,现有方法需要额外地截取必须修改的片段,再将其插入原始波形或梅尔谱图。
举例来说,过去的工作,基于数字信号处理(DSP)部分克服了在不同场景中直接连接音频所产生的韵律失配问题。利用神经网络预测韵律信息,并集成TD-PSOLA算法、去噪和去混响实现韵律修改的方法。尽管上述系统支持剪切、复制和粘贴操作,但不能插入或替换同一说话人的语音数据中不存在的新词。近年来的研究应用文语转换(TTS)系统来合成缺失的插入词。VoCo使用可比较的TTS语音合成插入词,然后使用语音转换(VC)模型将其转换为适合目标说话人。EditSpeech提出了部分推理和双向融合方法,以实现编辑边界处的平滑过渡。CampNet在基于Transformer的上下文感知神经网络上进行掩码训练,以提高编辑语音的质量。最近,一种能够感知对齐声学文本预训练方式被提出(A3T),该框架通过文本输入和训练期间的声学文本对齐来高质量地重建被掩盖的声学信号,可以直接应用于语音编辑。如上所述,至今为止的语音编辑系统均采用部分推理方式,因此难以避免拼接处的不连贯,并且无法处理文本修改后语气语境的变化。这种编辑的方式虽然尽可能地保留了原始音频,但也会导致以下潜在问题:
问题一:部分推断人为地将编辑区的预测声学特征插入原始波形的相应位置,因此编辑区边界附近的不连续性在一定程度上几乎是不可避免的。同时,现有的基于部分推理的语音编辑系统的直接输出仍然是包括上下文片段在内的整句音频。因此,与整体推理相比,它不会节约更多的时间或计算资源。
问题二:文本被修改后,音调和韵律也会相应改变。也就是说,不应该盲目追求让修改后的文本所对应的音频听起来与原始音频完全相同。一个特别的例子是,当一般疑问句可以修改为陈述句时,部分推理几乎无法处理语气的变化,因为这种做法直接使用了原始的音频片段。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种跨语句条件相干的语音编辑方法、系统及终端,用于解决现有技术中以上技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海科技大学,未经上海科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310146999.X/2.html,转载请声明来源钻瓜专利网。