[发明专利]讲话者推定方法及讲话者推定装置在审
申请号: | 201910043264.8 | 申请日: | 2019-01-17 |
公开(公告)号: | CN110223700A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 堀口翔太;神田直之 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G10L17/06 | 分类号: | G10L17/06;G10L17/02;G06K9/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 安香子 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 推定 特征量 讲话 音质 图像 人物区域 推定装置 类似度 检测 输入声音 输入图像 摄像 变更 | ||
目的是提供对于任意的人物根据声音和并不一定在讲话中被摄像的人物的图像进行讲话者推定的讲话者推定方法及讲话者推定装置。一种根据声音和图像推定讲话者的讲话者推定方法,具有:输入声音的步骤;从输入的声音中提取表示音质的特征量的步骤;输入图像的步骤;根据输入的图像进行各人物的人物区域的检测的步骤;根据检测出的各个人物区域推定表示音质的特征量的步骤;在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤;计算从声音中提取的表示音质的特征量和根据图像的人物区域推定出的表示音质的特征量的类似度的步骤;以及根据该计算出的类似度推定讲话者的步骤。
技术领域
本发明涉及讲话者推定方法及利用该讲话者推定方法的讲话者推定装置。
背景技术
在对话机器人等对话装置中,识别是谁进行了讲话的讲话者推定在实现进行适当的应对的功能方面是重要的。
以往,在讲话者推定中主要使用声音,通过使用指向性麦克风或排列了多个麦克风的麦克风阵列推定音源的方向来检测讲话者。但是,在多个人物处于相同的方向的情况下,难以判定谁是讲话者。为了应对该问题,不仅是声音、还使用图像进行讲话者推定,作为这样的背景技术,有专利文献1、2。
在专利文献1中,公开了一种进行使用声音的讲话者推定和使用图像的识别双方,并将其结果综合的方法。此外,在专利文献2中,公开了一种利用在声音讲话中从人物的嘴型的图像中提取的特征量、能够适用于任意的人物的基于图像的讲话者推定方法。
专利文献1:日本特开2001-67098号公报
专利文献2:日本特开2011-186351号公报
在专利文献1中,讲话者推定通过预先在数据库中登记讲话者的声音和图像并参照它们来进行。因此,存在可推定的讲话者被限定于登记在数据库中的人物的课题。
此外,在专利文献2中,由于需要取得讲话中的图像,所以存在需要同时取得声音和图像的课题。
即,例如在公共空间中以不特定多数人为对方而进行对话的机器人中,限定可推定的讲话者是不现实的。此外,需要讲话中的图像,意味着在从摄像装置的死角讲话的情况下不能进行讲话者推定。
发明内容
本发明是鉴于这样的问题而做出的,目的是提供对于任意的人物根据声音和在讲话中并不一定被拍摄的图像进行讲话者推定的讲话者推定方法及讲话者推定装置。
本发明鉴于上述背景技术及课题,举其一例如下,一种讲话者推定方法,根据声音和图像来推定讲话者,具有:输入声音的步骤;从输入的声音中提取表示音质的特征量的步骤;输入图像的步骤;从输入的图像中检测各人物的人物区域的步骤;根据检测出的各个人物区域,推定表示音质的特征量的步骤;在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤;计算从声音中提取的表示音质的特征量与根据图像的人物区域推定的表示音质的特征量的类似度的步骤;以及根据计算出的该类似度,推定讲话者的步骤。
发明效果
根据本发明,能够提供对于任意的人物根据声音和在讲话中并不一定被拍摄的图像进行讲话者推定的讲话者推定方法及讲话者推定装置。
附图说明
图1是实施例1的讲话者推定装置的硬件结构图。
图2是实施例1的讲话者推定装置的处理结构图。
图3是实施例1的讲话者推定装置的处理流程图。
图4是实施例2的讲话者推定装置的处理结构图。
图5是实施例2的讲话者推定装置的处理流程图。
图6是实施例3的讲话者推定装置的硬件结构图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910043264.8/2.html,转载请声明来源钻瓜专利网。