[发明专利]一种广播电视语音识别系统方法及系统有效

申请号：	201310648375.4	申请日：	2013-12-04
公开（公告）号：	CN103700370A	公开（公告）日：	2014-04-02
发明（设计）人：	陈鑫玮;徐波	申请（专利权）人：	北京中科模识科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/30;H04N21/439
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李相雨
地址：	100190 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种广播电视语音识别系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及音视频处理技术领域，特别涉及一种广播电视语音识别方法及系统。

背景技术

目前在广播电视领域，对广播电视语音识别主要利用适用于各行业的传统语音识别方法，而传统的语音识别主要采用模式匹配法，分为训练和识别两个阶段，其中在训练阶段，用户将词汇表中的每一词依次读或者说一遍，并且将其特征矢量作为模板存入模板库；在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

但是该语音识别应用在广播电视领域的语音识别存在以下问题：

1）广播电视行业对语音识别往往有特别的、不同于其他行业的处理和操作，但是由于上述传统语音识别是应用于各行业的，对于广播电视行业没有针对性，不能根据广播电视行业的特点对广播电视数据中的非语音内容进行过滤。因为在广播电视行业内非语音内容对于语音识别是不在处理范围之内的，所以如果不对非语音内容进行过滤，就还需要对其进行传输和处理，不仅导致传输资源和计算资源的浪费，而且还会由于非语音内容的存在导致出现较多的误识别操作，并且影响处理速度。

2）由于传统语音识别技术不具备针对广播电视行业的语音识别功能，导致识别结果不够完整，例如，对于一段广播电视数据无法判断出说话发生的场景以及说话人的身份等重要信息，无法对语音内容根据不同的说话人进行分段，无法标识每个语音词的时间戳，对后续其他广播电视业务的智能化、自动化处理无法提供任何有价值的参考信息。

综上，传统的语音识别方法应用在广播电视行业中存在耗费资源、处理速度慢、准确度不高、提供信息量不足等问题。

发明内容

（一）要解决的技术问题

本发明要解决的技术问题是如何针对广播电视行业特点进行语音识别，避免传统语音识别方法在广播电视行业应用中存在的缺点，为后续其它广播电视行业业务的智能化、自动化处理提供充足可用的基础数据。

（二）技术方案

为解决上述技术问题，本发明提供了一种广播电视语音识别方法，包括：

S1、根据广播电视数据提取出音频数据；

S2、对所述音频数据进行预处理，得到特征文本数据；

S3、将所述特征文本数据发送给云服务器进行识别处理，得到男女声识别、说话人识别以及语音识别结果；

S4、对所述数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。

进一步地，步骤S2对所述音频数据进行预处理具体包括：

S21、对所述音频数据进行切分和碎片化处理生成若干个句子文件；