[发明专利]一种基于语义注意力机制的多音字发音纠错方法及装置有效
申请号: | 202110266709.6 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112908293B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 陈晋音;叶林辉 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08;G10L25/18;G10L25/30;G06F40/232;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 注意力 机制 多音字 发音 纠错 方法 装置 | ||
本发明公开了一种基于语义注意力机制的多音字发音纠错方法及装置,包括:获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵;构建包含编码器、语义注意力机制单元和解码器的语音合成模型并进行参数优化,其中,编码器用于将输入的字嵌入向量矩阵编码成字嵌入特征矩阵,语义注意力机制单元用于将每个字嵌入向量按照各自权重拆分成疑问部分、关键部分以及价值部分这三部分后,依据相邻字组的三部分计算相邻字组的相关性,以组成关联矩阵;解码器对输入的字嵌入向量矩阵和关联矩阵进行解码处理,输出梅尔线性谱;利用参数优化后的语义合成模型对文本数据进行语音合成,输出梅尔线性谱,依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
技术领域
本发明属于深度学习算法及信息安全研究领域,具体涉及一种基于语义注意力机制的多音字发音纠错方法及装置。
背景技术
语音识别技术和语音合成技术是建立一个有听和讲能力的设备所必需的两项关键技术,这两项技术可以使电脑或者移动设备具有类似于人一样的说话和听懂人说话的能力,是90年代以来信息产业的重要竞争市场。
早期的语音合成技术采用拼接合成的方法进行语音合成,该方法根据输入文本分析后的信息,从指定的语音库中挑选预先录制好的语音单元,进行必要的调整之后,拼接在一起实现语音合成。然而这种方法合成的语音存在连续语音单元之间发声不连续的问题。统计参数语音合成是另一种早期的语音合成方法,统计参数模型从语音中提取与发声关系密切的特征,如基频,频谱特征等,对提取到的语音特征进行声学建模,并以训练得到的模型为基础构建语音合成系统。但是由于统计参数模型在对语音特征进行提取时,需要对原始语音进行变换,该过程容易造成信息的丢失,并且由于统计参数模型难以重现声音的细节,导致合成的语音通常听起来沉闷且不自然。
由于深度神经网络的优异性能,语音合成技术已从早期的语音合成方法转变为利用深度神经网络进行语音合成。并且深度神经网络使得语音生成技术已经在手机移动端,语音导航,智能家居等领域中有了各种应用。如在移动端,语音生成技术已经可以根据文本生成相应的语音,实现与机主的人机交互,再比如一些诸如故事自动化阅读,喜马拉雅FM等手机应用已经得到了广泛的应用,移动阅读因其便捷性逐渐成为主流阅读方式。在语音导航应用中,语音生成技术可以根据文本生成相应的导航语音,为司机提供路线导航服务。在智能家居设备中,语音生成技术与语音识别技术相结合,从而实现了与主人的语音交互,并且可以识别主人的语音,从而控制一些智能家居设备。因此语音合成技术已经有了广泛的应用场景。
虽然语音合成技术已经在手机移动端,语音导航等领域有了各种应用,生成语音的质量已经非常高,但是在中文的语音合成中,由于中文中存在多音字,语音合成技术在处理中文的多音字发音时,仍然会发生错误,不能正确处理一些多音字的发音,如高德地图导航在导航阶段提醒司机系好安全带时,生成的语音会将“系安全带”中的“系”字错误的发音为“xì”安全带。在故事自动化阅读的场景中,语音合成技术只能根据文本合成相应的语音,但是没有考虑中文发音中的多音字发音的问题,如将“一撮毛”中的“撮”字发音为“cuō”,而实际发音为“zuǒ”。这给用户带来了不好的体验,特别是儿童在学习字词发音的时候,这些错误的发音可能导致儿童错误的学习字词的发音,给今后的更正工作带来困难。也就是说,现在的语音合成技术在合成语音时没有关注多音字的前后字,如系安全带在生成语音时关注到了“安全带”三个字则可以将“系”正确发音为“xì”。
基于以上语音合成技术在一些场景下不能正确处理多音字发音的问题,迫切地需要研究一种基于语义注意力机制的多音字发音纠错方法,来解决语音合成模型在语音合成过程中,无法正确合成多音字的问题。
发明内容
鉴于语音合成技术中,语音合成模型在一些场景下无法正确处理多音字的发音,错误的合成一些多音字音频的问题,本发明的目的是提供一种基于语义注意力机制的多音字发音纠错方法及装置,通过使语音合成模型在合成语音时,与前后的字词关联起来,避免语音合成模型错误的合成多音字。
为实现上述发明目的,本发明提供以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110266709.6/2.html,转载请声明来源钻瓜专利网。