[发明专利]一种基于语义注意力机制的多音字发音纠错方法及装置有效

申请号：	202110266709.6	申请日：	2021-03-11
公开（公告）号：	CN112908293B	公开（公告）日：	2022-08-02
发明（设计）人：	陈晋音;叶林辉	申请（专利权）人：	浙江工业大学
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/04;G10L13/08;G10L25/18;G10L25/30;G06F40/232;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州天勤知识产权代理有限公司 33224	代理人：	曹兆霞
地址：	310014 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语义注意力机制多音字发音纠错方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于语义注意力机制的多音字发音纠错方法及装置，包括：获取文本数据，并对文本数据进行编码得到字嵌入向量矩阵；构建包含编码器、语义注意力机制单元和解码器的语音合成模型并进行参数优化，其中，编码器用于将输入的字嵌入向量矩阵编码成字嵌入特征矩阵，语义注意力机制单元用于将每个字嵌入向量按照各自权重拆分成疑问部分、关键部分以及价值部分这三部分后，依据相邻字组的三部分计算相邻字组的相关性，以组成关联矩阵；解码器对输入的字嵌入向量矩阵和关联矩阵进行解码处理，输出梅尔线性谱；利用参数优化后的语义合成模型对文本数据进行语音合成，输出梅尔线性谱，依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。

技术领域

本发明属于深度学习算法及信息安全研究领域，具体涉及一种基于语义注意力机制的多音字发音纠错方法及装置。

背景技术

语音识别技术和语音合成技术是建立一个有听和讲能力的设备所必需的两项关键技术，这两项技术可以使电脑或者移动设备具有类似于人一样的说话和听懂人说话的能力，是90年代以来信息产业的重要竞争市场。

早期的语音合成技术采用拼接合成的方法进行语音合成，该方法根据输入文本分析后的信息，从指定的语音库中挑选预先录制好的语音单元，进行必要的调整之后，拼接在一起实现语音合成。然而这种方法合成的语音存在连续语音单元之间发声不连续的问题。统计参数语音合成是另一种早期的语音合成方法，统计参数模型从语音中提取与发声关系密切的特征，如基频，频谱特征等，对提取到的语音特征进行声学建模，并以训练得到的模型为基础构建语音合成系统。但是由于统计参数模型在对语音特征进行提取时，需要对原始语音进行变换，该过程容易造成信息的丢失，并且由于统计参数模型难以重现声音的细节，导致合成的语音通常听起来沉闷且不自然。

由于深度神经网络的优异性能，语音合成技术已从早期的语音合成方法转变为利用深度神经网络进行语音合成。并且深度神经网络使得语音生成技术已经在手机移动端，语音导航，智能家居等领域中有了各种应用。如在移动端，语音生成技术已经可以根据文本生成相应的语音，实现与机主的人机交互，再比如一些诸如故事自动化阅读，喜马拉雅FM等手机应用已经得到了广泛的应用，移动阅读因其便捷性逐渐成为主流阅读方式。在语音导航应用中，语音生成技术可以根据文本生成相应的导航语音，为司机提供路线导航服务。在智能家居设备中，语音生成技术与语音识别技术相结合，从而实现了与主人的语音交互，并且可以识别主人的语音，从而控制一些智能家居设备。因此语音合成技术已经有了广泛的应用场景。

虽然语音合成技术已经在手机移动端，语音导航等领域有了各种应用，生成语音的质量已经非常高，但是在中文的语音合成中，由于中文中存在多音字，语音合成技术在处理中文的多音字发音时，仍然会发生错误，不能正确处理一些多音字的发音，如高德地图导航在导航阶段提醒司机系好安全带时，生成的语音会将“系安全带”中的“系”字错误的发音为“xì”安全带。在故事自动化阅读的场景中，语音合成技术只能根据文本合成相应的语音，但是没有考虑中文发音中的多音字发音的问题，如将“一撮毛”中的“撮”字发音为“cuō”，而实际发音为“zuǒ”。这给用户带来了不好的体验，特别是儿童在学习字词发音的时候，这些错误的发音可能导致儿童错误的学习字词的发音，给今后的更正工作带来困难。也就是说，现在的语音合成技术在合成语音时没有关注多音字的前后字，如系安全带在生成语音时关注到了“安全带”三个字则可以将“系”正确发音为“xì”。

基于以上语音合成技术在一些场景下不能正确处理多音字发音的问题，迫切地需要研究一种基于语义注意力机制的多音字发音纠错方法，来解决语音合成模型在语音合成过程中，无法正确合成多音字的问题。

发明内容

鉴于语音合成技术中，语音合成模型在一些场景下无法正确处理多音字的发音，错误的合成一些多音字音频的问题，本发明的目的是提供一种基于语义注意力机制的多音字发音纠错方法及装置，通过使语音合成模型在合成语音时，与前后的字词关联起来，避免语音合成模型错误的合成多音字。

为实现上述发明目的，本发明提供以下技术方案：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110266709.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多尺度深度监督的反向注意力模型
下一篇：一种添加海参的即食食品及制备方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语义注意力机制的多音字发音纠错方法及装置有效

专利文献下载