[发明专利]基于生成式对抗网络的情感语音自动生成方法及装置有效
申请号: | 202010111434.4 | 申请日: | 2020-02-24 |
公开(公告)号: | CN111243569B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 陈晋音;叶林辉;郑海斌 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L17/00;G10L17/04;G10L17/06;G10L17/18;G10L19/02;G10L25/30;G10L25/63 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 情感 语音 自动 方法 装置 | ||
本发明公开了一种生成式对抗网络的情感语音自动生成方法,包括:(1)准备语音数据集、语音情感数据集以及语言数据集;(2)利用语音数据集训练基于ResCNN构建的声纹识别模型,利用语音情感数据集训练基于CNN构建的语音情感识别模型,利用语言数据集训练语音生成模型;(3)以多个语音生成模型作为生成器,以声纹识别模型和语音情感识别模型作为判别器,构成生成式对抗网络,利用语音数据集、语音情感数据集以及语言数据集对生成式对抗网络进行再训练,获得能够生成特定身份特定情感语音的语音生成模型。(4)利用该语音生成模型自动生成情感语音。该方法可以使生成的语音更加自然且带有情感色彩身份信息。
技术领域
本发明属于情感识别领域,具体涉及一种生成式对抗网络的情感语音自动生成方法及装置。
背景技术
随着人机交互方式的日益更新和发展,人机交互方式已经从机械时代进入多媒体用户界面时代。近些年来,由于语音识别技术,语音生成技术的发展,人们逐渐抛弃了键盘,鼠标,触摸屏等传统的与机器的交互方式。而计算机也有了具备像人一样的具有“听”和“说”的能力。“听”实际上就是语音识别技术,这一方面已经有了迅速的发展,使计算机“听”的能力有了大幅度的提高。“说”指的就是语音生成技术。语音生成技术在自然处理、信号处理和随机过程处理等方法的推动下获得很大的发展。语音生成技术的应用广泛,如随着书籍无纸化的不断发展,在电子书的基础上出现了网络听书的方式,网络听说因为其方便、节省时间并且声优的声音会随书籍情节的改变进行语调、情感的改变,更有代入感的优点,迅速受到大家的欢迎。但是因为目前市场上已出版书籍数量巨大,而聘请声优为整本书进行配音成本较高,因此导致能够进行网络听书的书籍类型和数量较少,不能够满足大多数使用者的需要。使用语音生成技术可以给有声书的合成带来巨大的便利,可以节省成本,而使用传统语音生成技术合成的声音存在情感表现力弱,语音的表达比较僵硬,不自然,不存在身份信息等缺点。
在语音领域,语音识别技术,语音生成技术发展的同时,声纹识别和语音情感识别技术也有了巨大的发展。目前,声纹识别技术已经应用到人们日常生活的各个角落。比如银行、证券等行业利用声纹识别技术对电话,远程炒股等业务中对用户身份进行确认,提高了商业领域交易的安全性;在公安司法领域,对于各种电话勒索,绑架,电话人身攻击等案件,利用声纹识别技术可以在一段录音中查找出嫌疑人或缩小侦查范围。语音情感识别技术也在生活中得到了广泛的应用,比如在电话服务中心,通过语音情感识别技术,识别顾客的情绪,合理地进行反馈可以很大的提高顾客的满意度;在汽车驾驶领域,利用语音情感识别,结合图像识别,可以有效的观测驾驶员的精神状态,可以有效防止驾驶疲劳,路怒症等情况的发生;在安全监控系统中加入语音情感识别技术,可以对公共场所因为情绪失控而发生暴力的情况进行监控,从而有效避免暴力事件的发生。
由于声纹识别和语音情感识别的广泛应用以及优异的性能,使用声纹识别模型和语音情感识别模型指导语音生成模型生成带有情感的,更加自然的语音成为可能。
发明内容
针对目前语音生成技术所合成的语音表现力差,不自然,不带有情感色彩,不能按指定身份合成语音的缺陷,本发明提供了一种基于生成式对抗网络的情感语音自动生成方法及装置,该方法可以使生成的语音更加自然,使生成的语音带有情感色彩身份信息等,扩大语音生成技术的应用场景。
本发明的技术方案为:
一种生成式对抗网络的情感语音自动生成方法,包括以下步骤:
(1)准备语音数据集、语音情感数据集以及语言数据集;
(2)利用语音数据集训练基于ResCNN构建的声纹识别模型,利用语音情感数据集训练基于CNN构建的语音情感识别模型,利用语言数据集训练语音生成模型;
(3)以多个语音生成模型作为生成器,以声纹识别模型和语音情感识别模型作为判别器,构成生成式对抗网络,利用语音数据集、语音情感数据集以及语言数据集对生成式对抗网络进行再训练,获得能够生成特定身份特定情感语音的语音生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010111434.4/2.html,转载请声明来源钻瓜专利网。