[发明专利]讲话者推定方法及讲话者推定装置在审

申请号：	201910043264.8	申请日：	2019-01-17
公开（公告）号：	CN110223700A	公开（公告）日：	2019-09-10
发明（设计）人：	堀口翔太;神田直之	申请（专利权）人：	株式会社日立制作所
主分类号：	G10L17/06	分类号：	G10L17/06;G10L17/02;G06K9/00
代理公司：	永新专利商标代理有限公司 72002	代理人：	安香子
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	推定特征量讲话音质图像人物区域推定装置类似度检测输入声音输入图像摄像变更
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种讲话者推定方法，根据声音和图像，推定讲话者，其特征在于，具有：

输入声音的步骤；

从所输入的上述声音中提取表示音质的特征量的步骤；

输入图像的步骤；

从所输入的上述图像中检测各人物的人物区域的步骤；

根据检测出的各个上述人物区域，推定表示音质的特征量的步骤；

在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤；

计算从声音中提取的表示音质的特征量与根据图像的人物区域推定的表示音质的特征量的类似度的步骤；以及

根据计算出的该类似度，推定讲话者的步骤。

2.如权利要求1所述的讲话者推定方法，其特征在于，

具有以下步骤：在计算出的上述类似度的最大值比阈值小的情况下，变更将图像输入的位置或朝向。

3.如权利要求1或2所述的讲话者推定方法，其特征在于，

具有以下步骤：在计算出的上述类似度的最大值比阈值小的情况下，输出用于鉴别讲话者的声音或动作。

4.如权利要求3所述的讲话者推定方法，其特征在于，

具有以下步骤：在阈值以上的计算出的上述类似度的值有2个以上的情况下，输出用于鉴别讲话者的声音或动作。

5.如权利要求1所述的讲话者推定方法，其特征在于，

具有：

根据上述声音，推定音源方向的步骤；

根据推定的上述音源方向和上述图像中的人物检测方向，对于各人物计算是讲话者的概率即音源得分的步骤；以及

根据计算出的上述类似度和上述音源得分，推定讲话者的步骤。

6.一种讲话者推定装置，根据声音和图像，推定讲话者，其特征在于，具有：

声音输入装置，输入声音；

图像输入装置，输入图像；

图像输入控制装置，控制上述图像输入装置输入图像的位置或角度；以及

控制装置，控制上述声音输入装置、图像输入装置和图像输入控制装置；

上述控制装置进行以下处理：

从由上述声音输入装置输入的声音中提取表示音质的特征量；

从由上述图像输入装置输入的图像中检测各人物的人物区域；

根据检测出的各个上述人物区域，推定表示音质的特征量；

在没有检测到人物的情况下，控制上述图像输入控制装置而变更为输入来自其他的位置或角度的图像；

计算从声音中提取的表示音质的特征量与根据图像的人物区域推定的表示音质的特征量的类似度；

根据计算出的该类似度，推定讲话者。

7.如权利要求6所述的讲话者推定装置，其特征在于，

上述控制装置在计算出的上述类似度的最大值比阈值小的情况下，控制上述图像输入控制装置而变更将图像输入的位置或朝向。

8.如权利要求6或7所述的讲话者推定装置，其特征在于，

具备输出声音或动作的输出装置；

上述控制装置在计算出的上述类似度的最大值比阈值小的情况下，由上述输出装置输出用于鉴别讲话者的声音或动作。

9.如权利要求8所述的讲话者推定装置，其特征在于，

上述控制装置在阈值以上的计算出的上述类似度的值有2个以上的情况下，由上述输出装置输出用于鉴别讲话者的声音或动作。

10.如权利要求6所述的讲话者推定装置，其特征在于，

上述声音输入装置由多台构成；

上述控制装置进行以下处理：

根据从上述声音输入装置输入的多个声音，推定音源方向；

根据所推定的上述音源方向和上述图像中的人物检测方向，对于各人物计算是讲话者的概率即音源得分；

根据计算出的上述类似度和上述音源得分，推定讲话者。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所，未经株式会社日立制作所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910043264.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种说话人身份确认方法、装置及存储介质
下一篇：用于从缩混信号产生音频输出信号的解码器和方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]讲话者推定方法及讲话者推定装置在审

专利文献下载