[发明专利]多用户流式语音识别方法、系统、设备及介质有效
申请号: | 201911358893.6 | 申请日: | 2019-12-25 |
公开(公告)号: | CN110995943B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 郝竹林;罗超;胡泓;王俊彬;任君 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;H04M3/51 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多用户 语音 识别 方法 系统 设备 介质 | ||
1.一种多用户流式语音识别方法,其特征在于,所述多用户流式语音识别方法包括:
在主线程中从若干个通话线路中同时获取对应的若干用户的音频流,所述音频流包括音频信息和所述用户的身份信息;根据所述音频信息和所述身份信息生成请求对象;
在主线程中将所述请求对象添加入请求队列中;
在主线程中设置与请求对象相对应的返回对象;
在多个子线程中获取所述请求队列中的所述请求对象,判断所述请求对象中的所述身份信息是否为首次传输的新用户,若是,则初始化语音识别模型的环境参数,并利用语音识别模型根据所述请求对象解析所述音频信息得到所述身份信息对应的解码结果;若否,则直接利用所述语音识别模型得到所述解码结果;
在所述多个子线程中判断所述音频流中的音频信息是否为静音,若否,则调用部分解码器解析所述解码结果得到与所述音频流的所述用户的身份信息对应的中间识别文字,若是,则调用最终解码器,解析所述解码结果得到与所述音频流的所述用户的身份信息对应的最终识别文字;并将文字识别结果赋值至所述返回对象;
所述主线程处理所述返回对象。
2.如权利要求1所述的多用户流式语音识别方法,其特征在于,所述语音识别模型为时延神经网络模型;
和/或,所述从若干个通话线路中获取对应的用户的音频流的步骤之前包括:
初始化特征抽取器;
初始化语音识别模型的初始参数;
初始化语音解码器,所述语音解码器包括部分解码器和最终解码器;
所述利用语音识别模型解析所述请求对象中的所述音频信息得到与所述身份信息对应的解码结果的步骤包括:
利用所述特征抽取器对所述请求对象中的所述音频信息进行特征提取得到所述身份信息对应的特征信息;
利用所述语音识别模型解析所述特征信息得到所述解码结果。
3.如权利要求2所述的多用户流式语音识别方法,其特征在于,所述主线程处理所述返回对象的步骤包括:
在所述主线程中定期查询所述请求对象对应的所述返回对象中是否有文字识别结果,若是,则显示所述文字识别结果。
4.如权利要求1所述的多用户流式语音识别方法,其特征在于,所述判断所述音频流是否为静音的步骤包括:
利用端点检测模型判断所述音频流中的音频信息是否为静音;
其中,所述端点检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;
所述输入层用于接收测试音频的帧信息并对所述帧信息进行特征提取得到预设维度的特征;
所述音频CNN层包括若干路相并行的一维卷积层,所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据;
所述拼接层用于对所述第一特征数据进行连接得到第二特征数据;
所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据;
所述全连接层用于根据所述第三特征数据得到所述帧信息的概率;
所述输出层用于根据所述概率得到所述测试音频是否为静音的判断结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911358893.6/1.html,转载请声明来源钻瓜专利网。