[发明专利]一种同时识别人声和非人声的装置及方法在审
申请号: | 202011384504.X | 申请日: | 2020-12-02 |
公开(公告)号: | CN112185357A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 张琼方;何云鹏;许兵 | 申请(专利权)人: | 成都启英泰伦科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/20;G10L25/24;G10L25/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同时 识别 人声 装置 方法 | ||
一种同时识别人声和非人声的装置,包括声源输入单元及与其连接的特征提取单元,所述装置还包括N个识别模型和N个识别结果处理单元,每个识别模型连接有一个识别结果处理单元;所述N个识别模型由人声识别模型和非人声识别模型两种识别模型组成;所述识别结果处理单元对全部识别模型的输出结果进行判断识别为人声或非人声;所述装置还包括识别结果融合单元,所述融合单元的作用是根据人声非人声识别结果处理单元的结果触发上层应用。本发明还公开了一种同时识别人声和非人声的方法。本发明可以解决声源中的多源复杂信号同时分别识别;在保证两者识别效果的情况下,识别响应速度快,反应灵敏。
技术领域
本发明属于语音智能识别技术领域,具体涉及一种同时识别人声和非人声的装置及方法。
背景技术
目前基于语音交互的产品大多集中于人声的识别或者说集中于声音信号中某一种类型信号的识别,但语音识别本身绝不仅仅限于人声识别,语音本身就是多源复杂信号。随着语音识别的快速落地,也催生出更多种类需求的产品。如何同时识别人声和非人声,能够将多源信息进行有效利用,丰富产品的实用性,将成为未来语音识别发展的一种趋势。
人声语音识别主要有以下几个问题:1)语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。2)语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。3)单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。4)环境噪声和干扰对语音识别有严重影响,致使识别率低。受以上因素的影响,在人声识别测试中,各使用者或评价者之间很难在识别率上达成一致。
而非人声的语音识别主要有以下问题:1)采集数据受限。非人声类型繁多且特定环境及场所采集受限,例如鼾声、地震预警声或小孩哭声等,语料数量将直接影响识别效果好坏。2)易受人声环境干扰。非人声类识别在人声为背景环境识别时,识别优劣直接受嘈杂度的影响。3)识别速度慢,人声和非人声同时识别时想要获得较为良好的效果可能需要两个及以上的模型同时进行识别,受端侧语音识别的硬件及内存限制,识别速度受限。由于上述原因,在非人声识别的测试中,如何获得良好的识别且受人声干预小是主要技术难点。
发明内容
为克服现有语料处理技术存在的缺陷,本发明公开了一种同时识别人声和非人声的装置及方法。
本发明所述同时识别人声和非人声的装置,包括声源输入单元及与其连接的特征提取单元,所述装置还包括N个识别模型和N个识别结果处理单元,每个识别模型连接有一个识别结果处理单元;所述N个识别模型由人声识别模型和非人声识别模型两种识别模型组成;N大于等于2;
所述N个识别模型的输入端均与所述特征提取单元的输出端连接,所述N个识别结果处理单元的输出端均与识别结果融合单元的输入端连接,
所述识别结果处理单元对全部识别模型的输出结果进行判断识别为人声或非人声;
所述装置还包括识别结果融合单元,所述融合单元的作用是根据人声非人声识别结果处理单元的结果触发上层应用。
具体的,所述识别模型为以下形式:
第一部分P(Y|W)表示给定文本序列W*时出现对应语音的概率,即声学模型;第二部分表示文本序列W*的概率P(W),即语言模型,argmax函数的下标w表示组成文本序列的W*的字或词。
优选的,所述识别结果处理单元的判断方式具体为:
对人声识别,计算N个识别模型输出的N帧解码结果的N帧平均概率和N帧累计概率,N帧平均概率达到人声的指定平均阈值且N帧累计概率达到人声的指定累计阈值,则输出人声识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司,未经成都启英泰伦科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011384504.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于FPGA逻辑的软件分割方法
- 下一篇:螺旋式换热器和换热装置