[发明专利]一种融合通信中智能语音系统及实现方法无效

专利信息
申请号: 201110276686.3 申请日: 2011-09-19
公开(公告)号: CN102438086A 公开(公告)日: 2012-05-02
发明(设计)人: 裴文江;张书强;王晓姝;杨洋;詹金狮;朱光辉;第伟;缪瑞华;沈彦真;王开 申请(专利权)人: 东南大学
主分类号: H04M7/00 分类号: H04M7/00;G10L13/00;G10L15/00
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 楼高潮
地址: 215000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 通信 智能 语音 系统 实现 方法
【说明书】:

 

技术领域

发明涉及一种智能语音技术在融合通信中的应用,具体涉及一种融合通信中智能语音系统及实现方法。

背景技术

从目前语音技术的研究现状来讲,技术已经有了很大的发展。语音识别和合成技术是实现人机语音通信及建立一个有听和讲能力的口语系统所必需的两项关键技术。它们可以使电脑具有类似于人一样的说话和听懂人说话的能力。

语音识别技术主要包含几个方面:语音控制、电子发声、连续语音识别、非连续语音识别和语音学习。目前主要是在支持中英文,实现中英文混合问题上存在一些障碍。同时在识别大量词汇和个别发音方面还很难做到准确。作为语音识别技术新方向的语音学习,它则要求人模仿标准发音,其面临的困难是如何衡量人模仿的好坏。

和语音识别相比,语音合成技术相对来说要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术。语音合成技术是计算机“开口说话”的关键,现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂的自然语句输出,相应技术通常称为文语合成或文语转换(TTS)。TTS使得数据通信和语音通信在终端一级实现交融,人们将有希望在获取Internet信息时,使短消息服务、电子邮件等多数以文本方式提供的信息也用语音的方式输出。

随着语音研究的不断进展,已经出项了众多的语音识别开发工具:如Microsoft Speech SDK,IBM ViaVoice等。它们都提供了语音识别和合成的二次开发平台,而Speech SDK和ViaVoice两者主要区别有:Speech SDK是基于com的,只基于windows平台,而ViaVoice是基于动态链接库的,只用拷贝就可以了,在unix平台上也有这样的模块;Speech SDK识别结果可以从消息读出,也可以从回调函数读出,而ViaVoice只能从消息读出,在编程上,必须造一个隐藏窗口,从这个窗口中读出结果,比较麻烦;Speech SDK要求识别的音频文件文件名必须以wav为扩展名。但由于微软的Speech SDK是完全免费的,它已经取得了令人满意的识别率,识别速度快,可移植性好,支持多种开发语言等优点,因此它被广泛应用于各个领域。

微软的Speech SDK中含有语音应用程序接口(SAPI)、微软连续语音识别引擎(MCSR)以及串联语音合成引擎(TTS)等等。SAPI中还包括对于底层控制和高度适应性的直接语音管理、训练向导、事件、语法、编译、资源、语音识别管理以及文本到语音管理。语音引擎通过设备驱动接口(DDI)层和SAPI运行库通信,应用程序(Application)则通过应用程序接口(API)层和SAPI交互。通过使用这些API就能进行语音识别和语音合成方面的软件开发。

发明内容

本发明的目的是提出一种融合通信中智能语音系统及实现方法,通过语音合成框架和语音识别框架在融合通信系统中的整合,实现了相应的语音合成和语音识别功能页面。

为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:一种融合通信中智能语音系统,包括普通微机和用户电话,所述普通微机连接一融合通信系统服务器,所述融合通信系统服务器连接智能语音服务器,所述智能语音服务器识别出语音后,直接将识别的内容返回给融合系统通信系统服务器,融合通信系统根据识别出的内容再做进一步处理,以实现语音识别功能,从而将该功能呈现给登陆到融合通信系统的普通用户;所述智能语音服务器连接软电话服务器,所述软电话服务器连接IP-PBX ,所述软电话服务器将合成的音频通过注册在所述IP-PBX 上的软电话拨打给所述用户电话,以实现语音合成功能。

进一步的,本系统中包含语音合成框架和语音识别框架。

进一步的,所述语音合成框架包括ActiveMQ消息服务器,所述ActiveMQ消息服务器分别连接语音合成管理器和语音电话管理器,所述语音合成管理器连接语音合成WebService,所述语音电话管理器连接软电话,所述语音合成框架预留一个Java接口以供融合通信系统开发中的调用。

进一步的,一种融合通信中智能语音系统的语音合成框架的实现方法,包括以下步骤:

步骤1)WEB应用程序传入文本以及拨打的用户电话号码至消息列队TextMessage中;

步骤2)语音合成管理器不断地去查询TextMessage消息列队,如果消息到达其列队,则返回文本及电话号码;

步骤3)语音合成管理器将文本送至语音合成WebService合成PCM格式的语音,并返回合成的PCM文件的URL;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110276686.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top