[发明专利]用于tcp协议的基于能量阈值的语音缓冲丢包处理方法有效
申请号: | 201610243138.3 | 申请日: | 2016-04-19 |
公开(公告)号: | CN105743806B | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 刘鹏 | 申请(专利权)人: | 浙江万朋教育科技股份有限公司 |
主分类号: | H04L12/823 | 分类号: | H04L12/823;H04L12/863;H04L29/06;G10L25/78 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杜军 |
地址: | 310013 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 tcp 协议 基于 能量 阈值 语音 缓冲 处理 方法 | ||
本发明公开了一种用于tcp协议的基于能量阈值的语音缓冲丢包处理方法。本发明通过主动丢掉不重要的音频数据包来自动降低延迟。本发明包含丢包判定模块、采集发送端、服务器转发端、接收播放端四部分,采集发送端、服务器转发端、接收播放端三部分使用相同的丢包判定算法,互相配合完成整个系统的基于tcp传输协议的语音缓冲丢包处理。本本发明从简单实用的角度出发,实际测试效果能够满足大多情况下的需求,在满足实用性的情况下尽量降低了算法的复杂程度。
技术领域
本发明属于计算机数字语音处理通信领域,具体来说是一种用于tcp协议的基于能量阈值的语音缓冲丢包处理方法。
背景技术
在计算机数字语音处理通信领域,比如在线教育系统、视频会议系统等,发送端从麦克风采集到的语音数据经过编码压缩后发送到服务器,服务器再将接收到的语音包转发给接收端,期间由于设备性能和网络情况不稳定造成的网络抖动现象会使得发送端、服务器端和接收端的语音处理复杂度大增,如果处理不好会出现接收端用户听到的发送端用户的语音卡顿、延迟大等现象,严重影响双方的交流,优秀的语音缓冲丢包处理可以有效缓解由于各种原因造成的语音卡顿和延迟问题,使交流双方能够顺畅的进行语音交流。
在各种语音处理通信系统中,大部分系统都有语音缓冲丢包恢复功能模块。由于语音缓冲丢包处理主要是为了解决网络传输不稳定造成的语音延迟、卡顿等问题,所以语音缓冲丢包处理方法可以基于传输协议udp和tcp进行优化。由于udp协议传输时延迟比较小,为了降低语音延迟,当前大多语音交流系统使用的语音缓冲丢包处理方法都是基于udp传输协议进行优化的。udp协议是不可靠传输协议,除了有传输速度快的优点外,也有容易丢包、数据包乱序传输等缺点。由于udp的丢包是发生在网络传输层,所以应用本身不能进行控制。在遇到网络状况不好的情况下,通过udp协议传输的语音数据包就很容易会发生数据包丢失、传输乱序等现象,如果不对语音数据丢包和乱序进行处理,听到的声音就会出现卡顿断续、前后语音混乱等现象,为了解决这些问题,语音缓冲丢包恢复处理是必须的。语音缓冲丢包处理就是要对到来的udp语音数据包进行缓冲并进行排序,然后根据播放进度对延迟到达的语音数据包进行丢弃。通过对语音数据包进行缓冲排序,增大播放延迟来缓解语音卡顿和前后语音混乱的现象。由于udp在传输过程中会丢掉一部分语音数据包,在进行语音缓冲排序时也会丢掉一部分语音数据包,为了进一步提高语音效果,可以对丢掉的语音数据包进行丢包恢复操作。丢包恢复通常用复杂的预测、插值等算法对丢掉的语音进行还原,从而来降低语音丢包对语音质量造成的影响。在使用udp协议进行传输的情况下,由于丢掉的语音数据包含有重要的语音信息,丢包恢复操作通常是很重要的一环。Tcp协议本身是可靠传输协议,优点是数据按照先后顺序进行传输,不会发生丢包和乱序现象,缺点是传输延迟会比udp协议要大。由于tcp协议的特点,语音数据在传输过程中不会丢失,也不会发生语音数据包乱序现象,但是传输延迟大小的不确定性还是存在的。使用tcp传输协议时,语音缓冲丢包处理不需要考虑乱序问题,只需要解决语音缓冲时长的动态调整,从而平衡语音延迟和断续卡顿问题。如果语音缓冲过小,则会造成卡顿,如果语音缓冲过大,则会造成延迟过大。由于tcp协议传输时,网络传输层本身不会丢包,所有的语音数据丢包都是自己控制的,所以怎么进行数据的丢包就显得尤为重要。
各种系统根据情况选择使用不同的传输协议(udp或者tcp)和语音缓冲丢包恢复方法来满足用户的语音交流需求,提高语音交流体验。总的来说,在满足需求的情况下,采取的方法越简单越好。
发明内容
本发明的目的是基于tcp传输协议和语音数据的特点,提供用于tcp协议的基于能量阈值的语音缓冲丢包处理方法。本发明的核心思想是主动丢掉不重要的音频数据包(比如背景噪音数据、音量偏小的数据)来自动降低延迟。本发明包含丢包判定模块、采集发送端、服务器转发端、接收播放端四部分,采集发送端、服务器转发端、接收播放端三部分使用相同的丢包判定算法,互相配合完成整个系统的基于tcp传输协议的语音缓冲丢包处理。本发明使用了开源的vad算法进行语音数据的判断,并不对vad算法进行讨论。下面对各个部分分别进行描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江万朋教育科技股份有限公司,未经浙江万朋教育科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610243138.3/2.html,转载请声明来源钻瓜专利网。