[发明专利]一种同时识别人声和非人声的装置及方法在审
申请号: | 202011384504.X | 申请日: | 2020-12-02 |
公开(公告)号: | CN112185357A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 张琼方;何云鹏;许兵 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/20;G10L25/24;G10L25/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同时 识别 人声 装置 方法 | ||
1.一种同时识别人声和非人声的装置,其特征在于, 包括声源输入单元及与其连接的特征提取单元,所述装置还包括N个识别模型和N个识别结果处理单元,每个识别模型连接有一个识别结果处理单元;所述N个识别模型由人声识别模型和非人声识别模型两种识别模型组成;N大于等于2;
所述N个识别模型的输入端均与所述特征提取单元的输出端连接,所述N个识别结果处理单元的输出端均与识别结果融合单元的输入端连接,
所述识别结果处理单元对全部识别模型的输出结果进行判断识别为人声或非人声;
所述装置还包括识别结果融合单元,所述融合单元的作用是根据人声非人声识别结果处理单元的结果触发上层应用。
2.如权利要求1所述同时识别人声和非人声的装置,其特征在于,所述识别模型为以下形式:
第一部分P(Y|W)表示给定文本序列W*时出现对应语音的概率,即声学模型;第二部分表示文本序列W*的概率P(W),即语言模型,argmax函数的下标w表示组成文本序列的W*的字或词。
3.如权利要求1所述同时识别人声和非人声的装置,其特征在于,所述识别结果处理单元的判断方式具体为:
对人声识别,计算N个识别模型输出的N帧解码结果的N帧平均概率和N帧累计概率,N帧平均概率达到人声的指定平均阈值且N帧累计概率达到人声的指定累计阈值,则输出人声识别结果;
对非人声识别,计算非人声识别模型的N帧解码结果的N帧平均概率和N帧累计概率,N帧平均概率达到非人声的指定平均阈值且N帧累计概率达到非人声的指定累计阈值,则输出非人声识别结果;
其中,N帧结果的平均值达到指定平均阈值P(mean),即符合式(4),
且N帧结果的概率累计值达到指定累计阈值P(acc),即符合式(5);
P(i)表示第i帧的概率。
4.如权利要求1所述同时识别人声和非人声的装置,其特征在于,所述人声识别模型采用以下方法训练:
准备人声语料、非人声语料、多种非目标人声及非人声的噪声语料以提取神经网络训练的特征;
其中训练的特征分为关键特征及非关键特征,将人声特征标注为对应的文本作为人声神经网络输入的关键特征;
选择任意部分非人声特征和多种非目标人声及非人声的噪声特征标注为噪声作为人声神经网络输入的非关键特征;
其中非关键特征与关键特征的数据量之比不超过1:3;
将关键特征及非关键特征作为人声声学模型训练的所有输入,进行神经网络训练输出人声识别模型。
5.如权利要求1所述同时识别人声和非人声的装置,其特征在于,所述非人声识别模型采用以下方法训练:
将非人声特征标注为对应的文本作为非人声神经网络输入的关键特征,选择任意部分人声特征和多种非目标人声及非人声的噪声特征标注为噪声作为非人声神经网络输入的非关键特征;
其中非关键特征与关键特征的数据量之比不超过1:3;
将关键非人声特征和非关键噪声特征作为非人声声学模型训练的所有输入,进行神经网络训练输出非人声声学模型。
6.一种同时识别人声和非人声的方法,其特征在于,包括如下步骤:
对输入的声音信号进行预处理;
预处理的声音信号提取声学特征信号;
特征信号同时输入由人声识别模型和非人声识别模型两种识别模型组成的N个识别模型;
N个识别模型将识别结果分别输入N个识别结果处理单元,
识别结果处理单元对各自识别模型的输出结果进行判断识别为人声或非人声。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011384504.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于FPGA逻辑的软件分割方法
- 下一篇:螺旋式换热器和换热装置