[发明专利]基于视频的语音识别系统及方法有效
申请号: | 201210320742.3 | 申请日: | 2012-08-31 |
公开(公告)号: | CN103680497B | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | 王玲珑;曹晨曦 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30;G10L17/06;H04L29/08;H04L12/58 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视频 语音 识别 系统 方法 | ||
技术领域
本发明涉及语音识别技术领域,特别是涉及一种基于视频的语音识别系统及方法。
背景技术
语音识别技术已经广泛应用于人们日常生活之中,随之带来了很多问题。例如,在账号体系或SNS相关产品里如何应用语音识别技术,从而高效、准确的发送或分享视频等信息给对方。在当下账号体系及SNS相关产品中需要人脑记忆多个联系人好友,经过实践的累积,很容易忘记曾经见过面但不十分熟识的朋友,且当用户想分享信息给视频中的好友们时,发现想不起来好友的信息身份,比较尴尬。目前解决这些问题只能通过用户自身的记忆和手动分析来实现,效率低,准确度低。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种基于视频的语音识别系统,该系统可以通过语音识别,方便且准确的通过语音识别视频中的用户的身份。本发明的另一个目的在于提出一种终端设备的控制装置。
为了实现上述目的,本发明第一方面的实施例提供一种移动终端控制系统,包括以下步骤:终端设备,用于录制或接收视频,并采集所述视频中的语音信号;云服务器,用于接收来自所述终端设备的所述语音信号,提取所述语音信号中的声纹信息,以及将所述声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配以获取所述语音信号的发出者的身份信息,其中,所述声纹库存储有多个用户的身份信息及声纹信息,其中所述声纹信息与所述身份信息一一对应;以及社交服务器,用于接收所述视频和所述发出者的身份信息,根据所述发出者的身份信息查找所述发出者在所述社交服务器上登记的身份识别号,并根据所述身份识别号向对应的所述语音信号的发出者发送所述视频。
根据本发明实施例的终端设备控制系统,将用户发送的语音与声纹库中的预存的语音进行匹配,并在匹配成功后,用户进行确认选择和控制,将视频等信息分享给对方,从而不需要其他外部设备即可实现对终端设备的选择控制,过程准确易实现,具有较高的准确性、易用性和适用性。
在本发明的一个实施例中,所述声纹信息包括多个声纹特征,其中,所述声纹特征包括声学特征、词法特征、韵律特征、语言特征和通道特征。
在本发明的又一个实施例中,所述语言特征包括语种特征、方言特征和口音特征中的一种或多种。
由此,云服务器可以通过声纹特征对来自终端设备的语音进行匹配,形式多样性,从而考虑到尽可能多的语言特征,更利于对语音的发出者的身份进行识别。
在本发明的在一个实施例中,所述终端设备还用于对采集到的所述语音信号进行降噪处理,并将降噪处理后的语音信号发送至所述云服务器。
由此,使得获得的语音信号更加清晰,更方便对用户的语音信息进行确认及控制。
在发明的又一个实施例中,所述发出者在所述社交服务器上登记的身份识别号为电子邮箱或即时聊天ID。
由此,通过注册所用的电子邮箱或及时聊天ID,便可以轻松获得有关发出者更多的身份信息,从而将视频发送给发出者,并且便于保障系统的准确性与安全性。
本发明第二方面的实施例提出一种基于视频的语音识别方法,包括如下步骤:终端设备录制或接收视频,并采集所述视频中的语音信号,以及将所述语音信号发送至云服务器;
所述云服务器接收所述语音信号,并提取所述语音信号中的声纹信息,以及将所述声纹信息与预存的声纹库中的多个用户的声纹信息进行匹配,获取所述语音信号的发出者的身份信息,其中,所述声纹库存储有多个用户的身份信息及声纹信息,其中所述声纹信息与所述身份信息一一对应;以及
社交服务器接收所述视频和所述语音信号的发出者的身份信息,并根据所述发出者的身份信息查找所述发出者在所述社交服务器上登记的身份识别号,以及根据所述身份识别号向对应的所述语音信号的发出者发送所述视频。
根据本发明实施例的基于视频的语音识别方法,将用户发送的语音与声纹库中的预存的语音进行匹配,并在匹配成功后,用户进行确认选择和控制,将视频等信息分享给对方,从而不需要其他外部设备即可实现对终端设备的选择控制,过程准确易实现,具有较高的准确性、易用性和适用性。
在本发明的一个实施例中,所述声纹信息包括多个声纹特征,其中,所述声纹特征包括声学特征、词法特征、韵律特征、语言特征和通道特征。
本发明的又一个实施例中,所述语言特征包括语种特征、方言特征和口音特征中的一种或多种。
由此,云服务器可以通过声纹特征对来自终端设备的语音进行匹配,形式多样性,从而考虑到尽可能多的语言特征,更利于对语音的发出者的身份进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210320742.3/2.html,转载请声明来源钻瓜专利网。