[发明专利]一种识别发言者身份的方法及装置在审

申请号：	201810735900.9	申请日：	2018-07-06
公开（公告）号：	CN108922546A	公开（公告）日：	2018-11-30
发明（设计）人：	王旭;林柱英;李莉	申请（专利权）人：	无锡众创未来科技应用有限公司
主分类号：	G10L17/18	分类号：	G10L17/18;H04L9/32;G06F21/46
代理公司：	广州市百拓共享专利代理事务所(特殊普通合伙) 44497	代理人：	卢刚
地址：	214100 江苏省***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频特征视频特征视频片段发言者身份视频内容音频内容认证匹配视频图像语言
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种对发言者身份进行识别的方法，其包括：从第一视频片段的第一音频内容中提取第一音频特征，从包括第一发言者的第一视频内容中提取第一视频特征，基于第一音频特征和第一视频特征获得认证签名；从第二视频的第二音频内容中提取第二音频特征，所述第二音频特征中包括未被预识别的语言的第二发言者；从包括所述第二发言者的图像的第二视频内容中提取第二视频特征；基于所述第二发言者第二音频特征和第二视频特征；以及基于所述第二发言者的所述签名与所述认证签名进行匹配来确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同。

技术领域

本发明涉及智能家居领域，尤其涉及一种对发言人身份进行识别的方法及装置。

背景技术

目前的智能家居一般可以通过手机安装的app实现控制，然而传统的APP控制家居操作步骤比较复杂，比如根据语音控制需要通过语音唤醒，语音录入等步骤，另一方面，实现对家庭电器控制控制需要对输入信号进行识别，而信号识别通常是对单个时域或频域产生的信号进行识别，例如图像或声音。而在对视频中的发言人进行识别时，通常通过单独分析图片和声音来完成将发言人的特定图像识别为给定图片的组成部分以及将发言人作为给定声音的组成部分的特征，这样导致无法准确对未知身份的发言人进行身份鉴定，此外，由于只能对音频或图像进行识别，很容易对发言人身份识别错误，从而无法实现相应的语音命令操作。

发明内容

本发明公开一种确定发言者的身份的方法及装置，所述方法包括：一种识别发言者身份的方法，所述方法包括：从第一视频片段的第一音频内容中提取第一音频特征，所述第一音频特征包括由发言者标识符标识的第一发言者的规范语言；从包括第一发言者的图像的第一视频片段的第一视频中提取第一视频特征；基于第一音频特征和第一视频特征获得认证签名；从第二视频的第二音频内容中提取第二音频特征，所述第二音频内容包括未被预识别的第二发言者；从包括所述第二发言者的图像的所述第二视频片段的第二视频内容中提取第二视频特征；基于所述第二发言者的第二音频特征和第二视频特征；以及基于所述第二发言者的所述签名与所述认证签名进行匹配来确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者身份相同。

所述的方法，还包括在基于所述第一音频特征和所述第一视频特征获得所述认证签名之前对所述第一音频特征和所述第一视频特征进行时间对准。

进一步，还包括在基于所述第二音频特征和所述第二视频特征获得所述第二发言者的所述签名之前对所述第二音频特征和所述第二视频特征进行时间对准。

其中所述发言者标识符被存储为标签。

其中所述认证签名和所述标签被存储为包括密钥的密钥值对，所述密钥包括所述标签和认证签名的值。

其中确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同包括确定所述第二发言者的所述签名与所述认证签名之间的汉明距离。

其中确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同包括确定所述第二视频片段中的所述第二发言者与所述第一视频片段中的所述第一发言者相同，如果所述第二发言者的签名与所述认证签名之间的汉明距离小于阈值距离，则确定第一发言者与第二发言者身份相同。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于无锡众创未来科技应用有限公司，未经无锡众创未来科技应用有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810735900.9/2.html，转载请声明来源钻瓜专利网。