[发明专利]一种基于深度神经网络的语音环境气氛识别方法在审

申请号：	202111070401.0	申请日：	2021-09-13
公开（公告）号：	CN113903327A	公开（公告）日：	2022-01-07
发明（设计）人：	谢景帆	申请（专利权）人：	北京卷心菜科技有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/16;G10L15/26;G10L25/30;G10L25/63
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100015 北京市朝阳区酒***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度神经网络语音环境气氛识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于深度神经网络的语音环境气氛识别方法属于语音识别领域。无论是采用神经网络方法还是隐马尔可夫模型，一般是针对单方甚至仅仅是单个语句进行情绪判断。而个人及单个语句的情绪不能表征整体对话气氛。另外在多人同时说话时，常常出现混淆、误检测。本发明包括5个模块，在提取语义情感特征的过程中使用文本情感语料库，联合语言特征和语义特征进行气氛识别，包含了多个神经网络，可以识别不同说话人，感知语义情绪，设计了一种回归方法对整体对话气氛进行判断。

技术领域

本发明属于语言和语音识别领域。

背景技术

语言和语音识别在各个领域已经被越来越广泛地被应用。

所谓气氛，是指在对话过程中，双方或多方共同感知的情感和心理特征。例如紧张、轻松、热情、冷漠。

在交流过程中，识别出对话过程中的整体气氛有助于提高服务质量。例如在多人语音会议中，当气氛紧张时，可以通过系统界面和背景音的调整来缓和气氛；在视频教学过程中，气氛过于轻松时，可以对老师进行提醒。

现有技术方案一般通过隐马尔可夫模型或神经网络方法对音频进行检测，发现一些特殊的语音符号，例如哭泣、大笑。或识别出发音者的情绪。

无论是采用神经网络方法还是隐马尔可夫模型，一般是针对单方甚至仅仅是单个语句进行情绪判断。而个人及单个语句的情绪不能表征整体对话气氛。

另外在多人同时说话时，常常出现混淆、误检测。

发明内容

本发明基于语音识别和自然语言处理技术，识别不同说话人，感知语义情绪，设计了一种回归方法对整体对话气氛进行判断。

1.一种基于深度神经网络的语音环境气氛识别方法，其特征在于包括以下模块：