[发明专利]一种语音识别解码效率优化方法有效
申请号: | 201210580290.2 | 申请日: | 2012-12-27 |
公开(公告)号: | CN103065633A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 鹿晓亮;赵志伟;陈旭;尚丽;吴晓如;于振华;潘青华 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G10L15/34 | 分类号: | G10L15/34 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 贾玉忠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 解码 效率 优化 方法 | ||
技术领域
本发明涉及一种在连续语音识别系统中进行语音识别解码效率优化方法,用于提升基于云计算的语音识别系统的并发路数以及识别速度。
背景技术
随着手机等智能终端上语音输入功能和应用的普及,用户在手机等智能终端上使用语音输入的场景越来越多。而这些应用场景多是基于云计算进行,智能终端负责录音及音频数据压缩,然后将数据发送到云端的识别服务器上进行识别,识别结果再返回给智能终端。对于基于云计算的语音识别系统,如果能够提升单台识别服务器的并发路数和识别速度,相同数量的识别服务器可以同时支持更多用户的使用,从而可以为整个云计算平台节省大量硬件成本。然而,为了提升语音识别效果,往往会训练出规模庞大的语言模型和声学模型,由这些模型构建的解码网络加载起来常常需要几十G的内存。语音识别过程需要频繁地在几十G的内存中做查询,特别是在多路并发的情况下,内存读取的带宽会成为制约系统效率(并发路数和识别速度)的瓶颈。
目前的连续语音识别系统如图1所示,包括如下几个部分:端点检测、特征提取、解码以及结果输出。在连续语音识别系统的几个模块中,解码模块计算量占比最大(占80%以上),内存读取也最频繁,是影响整个系统效率(并发路数和识别速度)的最关键模块,也是最需要进行效率优化的核心模块。
目前的解码方案,是基于帧同步的Viterbi解码。系统首先将语言模型的语义网络通过声学模型扩展成基于模型状态层的搜索网络,其示意图如图2所示。在这种基于状态节点的搜索网络中所有声学模型状态按时间顺序重复排列,使得每一时间点的状态列都对应于一帧语音特征矢量。搜索时,分别计算每一列状态节点相对于输入语音帧的累积路径概率。在搜索到最后一帧语音时,具有最大累积概率的状态节点即为最优节点,通过从该节点执行状态回溯就可以得到最优解码状态序列,从而得到对应的单词序列。
一个实际的解码网络如图3所示:其中,每一个红点代表解码网络中的一个节点,每一个矩形代表解码网络中的一条弧,而每一条弧上又包含3个状态,该状态对应图2中的状态。具体的算法流程如下:(1)对于每一帧语音特征矢量,先在弧内进行动态规划,每一条弧上 最多可以输出一个得分和对应的路径;(2)根据Viterbi算法,该得分和路径传递到该弧后续节点上进行竞争,保留优胜者;(3)保留到节点上的优胜者,在下一帧到来时继续扩展到该节点的后续出弧上去;(4)对于最后一帧语音特征矢量,传递到解码网络最后一个节点(Final)并胜出的路径即为最优路径;(5)回溯最优路径,可以得到对应的词序列,即为识别结果。
对于现有的解码技术,每一帧特征矢量到来的时候,解码网络上的节点都要访问其所有出弧,并将该节点上竞争胜出的得分和对应的Viterbi路径传递到后续的弧上去。对于特别是基于语音云的连续语音识别系统,其解码网络会占用几十G的内存,访问节点的出弧即代表着要访问其出弧对应的所有内存,在多路并发的情况下(即多个用户同时使用同一台识别服务器使用识别服务),同时访问不同位置的内存的节点会有几十万甚至是上百万个,这样巨大的内存访问对于目前主流配置的服务器的内存带宽是一种挑战。由于内存带宽不足,造成了内存访问时的等待,从而影响了整个识别系统的识别速度。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种语音识别解码效率优化方法,在大内存的解码网络上进行解码的时候,能够减少内存访问次数,避开内存带宽不足的瓶颈,从而优化连续语音识别系统的识别效率。
本发明技术解决方案:一种语音识别解码效率优化方法,其特点在于:与传统的帧同步解码算法相比,最大不同之处在于:不是每一帧语音特征矢量都要进行Viterbi,而是每三帧进行一次Viterbi,称作帧半同步的解码算法,其实现流程如下:
(1)对于每三帧语音特征矢量,先在弧内进行Viterbi动态规划,每一条弧上最多能够输出三个得分和对应的路径,三个得分和路径分别对应三个连续不同帧的输出;
(2)根据Viterbi算法,该三个得分和对应的路径传递到该弧的后续节点上进行竞争(和对应帧的得分和路径竞争);
(3)保留到节点上的优胜者,在下三帧到来时继续扩展到该节点的后续出弧上去;
(4)对于最后一帧语音特征矢量,传递到解码网络最后一个节点(Final)并胜出的路径即为最优路径;
(5)回溯最优路径,得到对应的词序列,即为识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210580290.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电话自动接通分析报警方法
- 下一篇:一种分盖装置