[发明专利]基于视频的语音识别系统及方法有效
申请号: | 201210320742.3 | 申请日: | 2012-08-31 |
公开(公告)号: | CN103680497B | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | 王玲珑;曹晨曦 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30;G10L17/06;H04L29/08;H04L12/58 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视频 语音 识别 系统 方法 | ||
1.一种基于视频的语音识别系统,其特征在于,包括:
终端设备,用于录制或接收视频,并采集所述视频中的语音信号;
云服务器,用于接收来自所述终端设备的所述语音信号,提取所述语音信号中的声纹信息,以及将所述声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配以获取所述语音信号的发出者的身份信息,其中,所述声纹库存储有多个用户的身份信息及声纹信息,其中所述声纹信息与所述身份信息一一对应;以及
社交服务器,用于接收所述视频和所述发出者的身份信息,根据所述发出者的身份信息查找所述发出者在所述社交服务器上登记的身份识别号,并根据所述身份识别号向对应的所述语音信号的发出者发送所述视频。
2.如权利要求1所述的基于视频的语音识别系统,其特征在于,所述声纹信息包括多个声纹特征,其中,所述声纹特征包括声学特征、词法特征、韵律特征、语言特征和通道特征。
3.如权利要求2所述的基于视频的语音识别系统,其特征在于,所述语言特征包括语种特征、方言特征和口音特征中的一种或多种。
4.如权利要求1所述的基于视频的语音识别系统,其特征在于,所述终端设备还用于对采集到的所述语音信号进行降噪处理,并将降噪处理后的语音信号发送至所述云服务器。
5.如权利要求1所述的基于视频的语音识别系统,其特征在于,所述发出者在所述社交服务器上登记的身份识别号为电子邮箱或即时聊天ID。
6.一种基于视频的语音识别方法,其特征在于,包括如下步骤:
终端设备录制或接收视频,并采集所述视频中的语音信号,以及将所述语音信号发送至云服务器;
所述云服务器接收所述语音信号,并提取所述语音信号中的声纹信息,以及将所述声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配,获取所述语音信号的发出者的身份信息,其中,所述声纹库存储有多个用户的身份信息及声纹信息,其中所述声纹信息与所述身份信息一一对应;以及
社交服务器接收所述视频和所述语音信号的发出者的身份信息,并根据所述发出者的身份信息查找所述发出者在所述社交服务器上登记的身份识别号,以及根据所述身份识别号向对应的所述语音信号的发出者发送所述视频。
7.如权利要求6所述的基于视频的语音识别方法,其特征在于,所述声纹信息包括多个声纹特征,其中,所述声纹特征包括声学特征、词法特征、韵律特征、语言特征和通道特征。
8.如权利要求7所述的基于视频的语音识别方法,其特征在于,所述语言特征包括语种特征、方言特征和口音特征中的一种或多种。
9.如权利要求6所述的基于视频的语音识别方法,其特征在于,所述终端设备在采集到所述视频中的语音信号后,还包括如下步骤:对所述语音信号进行降噪处理,并将降噪处理后的语音信号发送至所述云服务器。
10.如权利要求1所述的基于视频的语音识别方法,其特征在于,所述发出者在所述社交服务器上登记的身份识别号为电子邮箱或即时聊天ID。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210320742.3/1.html,转载请声明来源钻瓜专利网。