[发明专利]一种自动语音识别业务的实现方法、系统和媒体服务器有效
申请号: | 201310032134.7 | 申请日: | 2013-01-28 |
公开(公告)号: | CN103151041A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 张伟;程佳佳;崔飞 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30;H04L29/06;G10L19/00 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) 11270 | 代理人: | 王黎延;张振伟 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 语音 识别 业务 实现 方法 系统 媒体 服务器 | ||
技术领域
本发明涉及通信领域中的自动语音识别(ASR)技术,尤其涉及一种ASR业务的实现方法、系统和媒体服务器。
背景技术
媒体服务器(Media Server,MS)是软交换体系中提供专用媒体资源功能的独立设备,也是分组网络中的重要设备,提供基本、增强业务中的媒体处理功能,并用于所有与音视频相关的媒体处理操作,所述媒体处理操作包括:视频和音频实时传输协议(RTP)的数据与视、音频文件的相互转换。同时,媒体服务器也用于接收用户通过终端双音多频(DTMF)的输入、播放业务的引导语音以及显示动态的引导画面。媒体服务器具有的会话初始协议(SIP)和MSML/MOML协议能力,使得媒体服务器能在应用服务器(APP Server)的控制下完成整个会话过程,实现与用户的交互。
媒体控制模块(MSCU)是媒体服务器中的一个重要模块,主要用于与其他实体进行能力协商,提供资源本身的管理、维护,以及控制其他业务资源模块执行复杂的业务。
媒体存储传输音频模块(MSTU)是媒体服务器中的业务资源模块,用于存储海量的音频数据,并实现音频文件的播放功能。媒体存储传输音频模块上设置有对外网口,可以直接通过所述对外网口收发音频数据。
现有技术中,媒体服务器的应用范围很广,主要可以归纳为音视频播放、收号和会议等功能。
ASR功能是对输入的音频信息进行识别,转化为文字,并将文字信息通过消息上报给用户。目前,在电信领域中,ASR应用通常是通过专门配置的ASR服务器来实现的,通过信令指定ASR服务器将文字发送到用户端,如发送到用户的终端来完成一次ASR业务。
图1为现有技术中实现ASR业务的系统结构示意图,如图1所示,该系统包括:终端、APP服务器、媒体服务器和ASR服务器。基于图1所述系统的方法实现流程包括如下步骤:
步骤101:终端发起一次呼叫,触发APP服务器以激活APP业务;
步骤102:APP服务器通过SIP信令向媒体服务器请求ASR业务;
步骤103:媒体服务器通过SIP信令向ASR服务器请求ASR资源,并通过媒体资源控制协议(MRCP)控制ASR服务器执行相应业务;
步骤104:终端向ASR服务器发送媒体业务数据包,并且ASR服务器将识别出的文本信息上报给媒体服务器。
以上便是目前典型的ASR业务组网结构图和业务实现流程。其中,ASR服务器为媒体服务器的外置装置。APP服务器在请求ASR业务时只是向媒体服务器发起请求,媒体服务器判断当前业务类型,当业务类型为ASR应用时,媒体服务器再向ASR服务器发起请求,申请资源,并控制ASR服务器的行为,ASR服务器在收到信令后等待媒体信息的输入,并自动将媒体信息识别成文字,通过MRCP发送给媒体服务器。
但是,随着业务应用的扩展,上述现有实现方法存在一定缺陷,比如:ASR服务器的音频能力集与终端的音频能力集不匹配,将导致ASR业务失败。因为APP服务器在同媒体服务器进行会话描述协议(SDP)协商时,媒体服务器并不知道当前的业务类型是否为ASR,所以会按照自身的能力范围同终端协商音频参数。当APP服务器向媒体服务器下发信息(INFO)指令时,媒体服务器才能识别出ASR业务类型,此时,媒体服务器通过终端SDP信息向ASR服务器申请资源。但是,如果ASR服务器的音频编解码能力范围与媒体服务器同终端协商的结果不相同时,比如:媒体服务器同终端协商的音频编解码类型为AMR格式,但ASR服务器只支持G711的音频格式时,将导致ASR服务器访问媒体业务数据包的数据失败,最终导致ASR业务失败。
发明内容
有鉴于此,本发明的主要目的在于提供一种ASR业务的实现方法、系统和媒体服务器,可解决媒体服务器与终端协商的音频编解码能力无法满足ASR服务器时,ASR服务器无法访问媒体业务数据包数据的问题,保证ASR业务的实现。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种自动语音识别ASR业务的实现方法,该方法包括:
媒体服务器收到APP服务器的访问请求后,确定自身支持的音频编解码类型集;
媒体服务器收到APP服务器发送的ASR业务请求后,根据ASR业务类型向ASR服务器申请ASR业务资源;
媒体服务器根据所述音频编解码类型集与ASR服务器进行协商,通过协商所得的音频编解码类型对媒体业务数据包进行转码,并将转码后的媒体业务数据包发送给ASR服务器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310032134.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带钥匙扣的手提包
- 下一篇:一种基于向量机SVM的说话者年龄段识别方法