[发明专利]讲话者推定方法及讲话者推定装置在审
申请号: | 201910043264.8 | 申请日: | 2019-01-17 |
公开(公告)号: | CN110223700A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 堀口翔太;神田直之 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G10L17/06 | 分类号: | G10L17/06;G10L17/02;G06K9/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 安香子 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 推定 特征量 讲话 音质 图像 人物区域 推定装置 类似度 检测 输入声音 输入图像 摄像 变更 | ||
1.一种讲话者推定方法,根据声音和图像,推定讲话者,其特征在于,具有:
输入声音的步骤;
从所输入的上述声音中提取表示音质的特征量的步骤;
输入图像的步骤;
从所输入的上述图像中检测各人物的人物区域的步骤;
根据检测出的各个上述人物区域,推定表示音质的特征量的步骤;
在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤;
计算从声音中提取的表示音质的特征量与根据图像的人物区域推定的表示音质的特征量的类似度的步骤;以及
根据计算出的该类似度,推定讲话者的步骤。
2.如权利要求1所述的讲话者推定方法,其特征在于,
具有以下步骤:在计算出的上述类似度的最大值比阈值小的情况下,变更将图像输入的位置或朝向。
3.如权利要求1或2所述的讲话者推定方法,其特征在于,
具有以下步骤:在计算出的上述类似度的最大值比阈值小的情况下,输出用于鉴别讲话者的声音或动作。
4.如权利要求3所述的讲话者推定方法,其特征在于,
具有以下步骤:在阈值以上的计算出的上述类似度的值有2个以上的情况下,输出用于鉴别讲话者的声音或动作。
5.如权利要求1所述的讲话者推定方法,其特征在于,
具有:
根据上述声音,推定音源方向的步骤;
根据推定的上述音源方向和上述图像中的人物检测方向,对于各人物计算是讲话者的概率即音源得分的步骤;以及
根据计算出的上述类似度和上述音源得分,推定讲话者的步骤。
6.一种讲话者推定装置,根据声音和图像,推定讲话者,其特征在于,具有:
声音输入装置,输入声音;
图像输入装置,输入图像;
图像输入控制装置,控制上述图像输入装置输入图像的位置或角度;以及
控制装置,控制上述声音输入装置、图像输入装置和图像输入控制装置;
上述控制装置进行以下处理:
从由上述声音输入装置输入的声音中提取表示音质的特征量;
从由上述图像输入装置输入的图像中检测各人物的人物区域;
根据检测出的各个上述人物区域,推定表示音质的特征量;
在没有检测到人物的情况下,控制上述图像输入控制装置而变更为输入来自其他的位置或角度的图像;
计算从声音中提取的表示音质的特征量与根据图像的人物区域推定的表示音质的特征量的类似度;
根据计算出的该类似度,推定讲话者。
7.如权利要求6所述的讲话者推定装置,其特征在于,
上述控制装置在计算出的上述类似度的最大值比阈值小的情况下,控制上述图像输入控制装置而变更将图像输入的位置或朝向。
8.如权利要求6或7所述的讲话者推定装置,其特征在于,
具备输出声音或动作的输出装置;
上述控制装置在计算出的上述类似度的最大值比阈值小的情况下,由上述输出装置输出用于鉴别讲话者的声音或动作。
9.如权利要求8所述的讲话者推定装置,其特征在于,
上述控制装置在阈值以上的计算出的上述类似度的值有2个以上的情况下,由上述输出装置输出用于鉴别讲话者的声音或动作。
10.如权利要求6所述的讲话者推定装置,其特征在于,
上述声音输入装置由多台构成;
上述控制装置进行以下处理:
根据从上述声音输入装置输入的多个声音,推定音源方向;
根据所推定的上述音源方向和上述图像中的人物检测方向,对于各人物计算是讲话者的概率即音源得分;
根据计算出的上述类似度和上述音源得分,推定讲话者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910043264.8/1.html,转载请声明来源钻瓜专利网。