[发明专利]一种基于深度神经网络的语音环境气氛识别方法在审
申请号: | 202111070401.0 | 申请日: | 2021-09-13 |
公开(公告)号: | CN113903327A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 谢景帆 | 申请(专利权)人: | 北京卷心菜科技有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/16;G10L15/26;G10L25/30;G10L25/63 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100015 北京市朝阳区酒*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 语音 环境 气氛 识别 方法 | ||
一种基于深度神经网络的语音环境气氛识别方法属于语音识别领域。无论是采用神经网络方法还是隐马尔可夫模型,一般是针对单方甚至仅仅是单个语句进行情绪判断。而个人及单个语句的情绪不能表征整体对话气氛。另外在多人同时说话时,常常出现混淆、误检测。本发明包括5个模块,在提取语义情感特征的过程中使用文本情感语料库,联合语言特征和语义特征进行气氛识别,包含了多个神经网络,可以识别不同说话人,感知语义情绪,设计了一种回归方法对整体对话气氛进行判断。
技术领域
本发明属于语言和语音识别领域。
背景技术
语言和语音识别在各个领域已经被越来越广泛地被应用。
所谓气氛,是指在对话过程中,双方或多方共同感知的情感和心理特征。例如紧张、轻松、热情、冷漠。
在交流过程中,识别出对话过程中的整体气氛有助于提高服务质量。例如在多人语音会议中,当气氛紧张时,可以通过系统界面和背景音的调整来缓和气氛;在视频教学过程中,气氛过于轻松时,可以对老师进行提醒。
现有技术方案一般通过隐马尔可夫模型或神经网络方法对音频进行检测,发现一些特殊的语音符号,例如哭泣、大笑。或识别出发音者的情绪。
无论是采用神经网络方法还是隐马尔可夫模型,一般是针对单方甚至仅仅是单个语句进行情绪判断。而个人及单个语句的情绪不能表征整体对话气氛。
另外在多人同时说话时,常常出现混淆、误检测。
发明内容
本发明基于语音识别和自然语言处理技术,识别不同说话人,感知语义情绪,设计了一种回归方法对整体对话气氛进行判断。
1.一种基于深度神经网络的语音环境气氛识别方法,其特征在于包括以下模块:
模块1:获取音频信号并进行预处理;
将音频信号进行预处理得到声音数据;包括预加重、分帧、短时傅里叶变换;
模块2:将模块1输出的声音数据进行切分,得到各语段所属说话人ID、语音段的起始时间和结束时间、文本内容;
模块2的主体为一种深度神经网络,该深度神经网络具体参数通过训练获得;
训练过程为:
2.1 获取训练数据集,
2.2 对训练数据中,说话人、文本内容进行分段标注;标注内容为每一段的开始时间、结束时间、说话人、说话内容的文本;
2.3 采用梯度下降方式进行拟合
使用过程中,将声音数据输入给训练好的深度神经网络模型,该模型给出对每个时间步的概率预测结果,即每个时间步所属说话人的概率分布、说话内容的概率分布;
将声音数据的全部时间步输出综合起来,按照说话人的连续说话进行切分,生成各段起始截止时间,各段的说话人、各段的文本内容;
模块3:将模块2输出的语音段进行语音特征提取;
依据语音段的切分时间,对原始音频信号进行重采样;并给予重采样的结果进行语音特征抽取;
模块4:依据文本情感语料库,将模块2输出的各个说话人的文本内容编码为语义情感特征;
模块4为具有记忆功能的时序神经网络,记忆有一定时序限度内的情感特征;对于每一个说话人进行单独运算;对最新文本内容进行分词,去停用词,依据文本情感语料库将词语转换为情感特征;将情感特征输入时序神经网络,并获取到最新的情感特征结果;
模块5:依据模块3和模块4输出的语音特征和情感特征,进行气氛判断;
气氛使用一个实数值来进行度量;实数取值范围为[0,1],0表示非常轻松,1表示非常紧张;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京卷心菜科技有限公司,未经北京卷心菜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111070401.0/2.html,转载请声明来源钻瓜专利网。