[发明专利]语音交互方法和系统有效
申请号: | 201510574318.5 | 申请日: | 2015-09-10 |
公开(公告)号: | CN105280183B | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 穆向禹 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/22;G10L21/0272;H04L29/06 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 交互 方法 系统 | ||
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音交互方法和系统。
背景技术
随着汽车工业的发展,车载逐渐成为人们生活中的一个重要场景。由于安全性的要求和移动互联的发展,人们已经逐渐习惯了通过语音输入对车载设备进行操控。
通过语音输入对车载设备进行操控时,如果同时有多人说话,语音交互系统就难以区分出目标指令,为此,通常会要求除了指令的发出者之外的其他人尽量不要说话,但是,这种方式由于增加了对用户的限制,会使得语音交互系统的适应范围受限,并且也会影响用户体验。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种语音交互方法,该方法可以在多人说话的场景下依然可以识别出目标声源,从而扩大语音交互系统的适用范围,提升用户体验。
本发明的另一个目的在于提出一种语音交互系统。
为达到上述目的,本发明第一方面实施例提出的语音交互方法,包括:确定目标用户,并获取目标用户的用户信息;在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源;对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控。
本发明第一方面实施例提出的语音交互方法,通过根据目标用户的用户信息在混合声源中识别出目标声源,进而根据目标声源进行操作,可以在多人说话的场景下依然可以识别出目标声源,从而扩大语音系统的适用范围,提升用户体验。
为达到上述目的,本发明第二方面实施例提出的语音交互系统,包括:获取模块,用于确定目标用户,并获取目标用户的用户信息;识别模块,用于在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源;操控模块,用于对目标声源中的语音信息进行语音识别,得到语音识别结果,并将所述语音识别结果作为目标指令对交互设备进行操控。
本发明第二方面实施例提出的语音交互系统,通过根据目标用户的用户信息在混合声源中识别出目标声源,进而根据目标声源进行操作,可以在多人说话的场景下依然可以识别出目标声源,从而扩大语音系统的适用范围,提升用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的语音交互方法的流程示意图;
图2是本发明另一实施例提出的语音交互方法的流程示意图;
图3是本发明实施例中声纹注册的示意图;
图4是本发明实施例中声纹登录的示意图;
图5是本发明实施例中在混合声源中识别目标声源的示意图;
图6是本发明另一实施例提出的语音交互系统的结构示意图;
图7是本发明另一实施例提出的语音交互系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的语音交互方法的流程示意图,该方法包括:
S11:确定目标用户,并获取目标用户的用户信息。
目标用户是指在需要语音交互时,发出目标指令的用户。例如,可以将当前登录语音交互系统的用户确定为目标用户,此时,如果需要更改目标用户,需要更换当前登录的用户。
用户信息例如包括:声纹信息,和/或,方位信息。
其中,在用户注册时,语音交互系统可以采集并保存用户的声纹信息。相应的,在用户登录时可以采集当前登录用户的声纹信息,如果当前的声纹信息属于已保存的声纹信息,则允许用户登录,并将当前登录的用户确定为目标用户,由于用户登录时采集了声纹信息,因此可以获取到目标用户的声纹信息。
另外,语音交互系统根据声源定位技术可以确定当前登录用户发出的语音信息的方位,从而获取目标用户的方位信息。
S12:在需要语音交互时,获取多人同时说话时的混合声源,以及,根据目标用户的用户信息,在所述混合声源中识别出目标声源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510574318.5/2.html,转载请声明来源钻瓜专利网。