[发明专利]基于音节识别的视频点播方法无效
申请号: | 201210486825.X | 申请日: | 2012-11-26 |
公开(公告)号: | CN102970618A | 公开(公告)日: | 2013-03-13 |
发明(设计)人: | 吕勇 | 申请(专利权)人: | 河海大学 |
主分类号: | H04N21/81 | 分类号: | H04N21/81;G10L15/02;G10L15/06;G10L15/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 音节 识别 视频点播 方法 | ||
技术领域
本发明涉及一种基于音节识别的视频点播方法,具体涉及到以音节为单位,将待识别语音的音节序列直接识别为视频名称的视频点播方法,属于语音识别技术领域。
背景技术
近年来,随着计算机技术、信号处理技术和模式识别技术的发展,语音识别技术取得了显著进步,在通信、医疗、消费电子、自助服务、办公自动化等多个领域得到了广泛应用。
在语音视频点播领域,目前广泛的做法是将用户发出的语音指令用自然语言处理方法识别为文本,再将该文本与预先存储的视频名称文本逐一匹配,识别出用户选择的视频名称,完成点播过程。
基于大词汇量连续语音识别的自然语言处理系统,结构复杂,运算量大,需要占用较多的处理器和内存资源,难以在缺少网络服务器支持的独立终端上实现。而且大词汇量连续语音识别系统的抗干扰能力较弱,鲁棒性较差,在嘈杂的KTV环境中难以取得较好的识别效果。
音乐、歌曲、电影、电视等音频和视频内容的命名具有较大的随意性,不一定符合正常的语法规则和习惯用法。因此用自然语言处理方法,识别视频名称,得到的文本内容未必准确,从而给后续的视频文本匹配带来不利影响。
发明内容
发明目的:针对汉语汉字多,同音字多,但音节较少的不足,本发明提供一种基于音节识别的视频点播方法。
技术方案:一种基于音节识别的视频点播方法,在训练阶段,首先对视频库中的每个视频名称进行音节提取,得到视频音节序列库,然后进行中/英文模型训练、音节模型训练、音节上下文训练和音节索引提取,分别得到中/英文识别模型、音节模型、音节序列上下文模型和音节索引库。在识别阶段,对用户输入的待识别语音进行语音切分后,首先进行中/英文名称识别,识别出是中文名称或英文名称;然后用中文音节模型或英文音节模型进行音节识别,得到待识别语音的音节序列;最后利用音节索引库和音节序列上下文模型进行音节序列的匹配解码,得到视频名称。
具体包括如下步骤:
(1)建立索引库:从视频名称库中提取音节,得到每个视频名称的音节序列,将每个视频名称归类到其音节索引中,由于每个视频名称含有多个音节,因此其会属于多个不同的音节;
(2)建立中/英文识别模型:为了区分中文视频名称和英文视频名称,在音节识别之前需要进行中/英文识别;
(3)建立音节模型:用每个音节的训练语音,训练生成该音节的隐马尔可夫模型(HMM);
(4)建立音节序列的上下文模型:音频和视频名称的命名有较大的自由性,不一定符合自然语言的语法规则,甚至有较大的差别,因此从已有的视频库中提取音节序列的上下文模型,用于待识别音节序列的匹配解码;
(5)中/英文名称识别:在识别阶段,首先进行中/英文名称识别,然后再按中文名称或英文名称分别处理;
(6)音节识别:将待识别视频名称的语音切分并用音节HMM识别为音节序列;
(7)音节序列匹配解码:根据待识别音节序列中的每个音节,从索引库中调出全部有可能的视频名称序列,并用音节序列的上下文模型进行匹配解码,得到待识别视频的名称。
对中文音节,为汉语的每个音节建立索引库;对于英文音节,对视频名称库中的英文音节进行聚类,将其划分为若干类,然后对每一类英文音节进行建模。
用中文音节的训练语音,训练生成中文高斯混合模型(GMM);用英文音节的训练语音,训练生成英文GMM;用中/英文GMM模型对待识别视频名称的语音进行语言识别,区分中文视频名称和英文视频名称。
为待识别音节序列每个音节标注权重,在视频名称库中音节出现的概率越小,其权重就越大,反之权重越小;权重信息标注在音节序列的上下文模型中,用于待识别语音序列的匹配解码。
根据待识别音节序列的匹配解码结果,除了以概率最大的视频名称作为输出结果外,还为用户提供多个备选结果,并根据输出概率大小进行排序,供用户选择。
用户可以自行增添视频内容,增加的视频名称会自动归属到其音节索引中。
有益效果:与现有技术相比,本发明提供的基于音节识别的视频点播方法,为每个音节建立视频名称索引库,为待识别语音从索引库中选取可能的视频名称,再将待识别音节序列与候选视频名称音节阵列,直接匹配,得到当前视频名称,不需要将语音转换为文本,提高了识别性能和系统鲁棒性。
附图说明
图1为本发明实施例的原理图;
图2为本发明实施例的音节索引库的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210486825.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种故障处理方法及分布式基站
- 下一篇:一种网络电视的控制方法、装置和系统