[发明专利]讲话者推定方法及讲话者推定装置在审
申请号: | 201910043264.8 | 申请日: | 2019-01-17 |
公开(公告)号: | CN110223700A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 堀口翔太;神田直之 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G10L17/06 | 分类号: | G10L17/06;G10L17/02;G06K9/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 安香子 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 目的是提供对于任意的人物根据声音和并不一定在讲话中被摄像的人物的图像进行讲话者推定的讲话者推定方法及讲话者推定装置。一种根据声音和图像推定讲话者的讲话者推定方法,具有:输入声音的步骤;从输入的声音中提取表示音质的特征量的步骤;输入图像的步骤;根据输入的图像进行各人物的人物区域的检测的步骤;根据检测出的各个人物区域推定表示音质的特征量的步骤;在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤;计算从声音中提取的表示音质的特征量和根据图像的人物区域推定出的表示音质的特征量的类似度的步骤;以及根据该计算出的类似度推定讲话者的步骤。 | ||
搜索关键词: | 推定 特征量 讲话 音质 图像 人物区域 推定装置 类似度 检测 输入声音 输入图像 摄像 变更 | ||
【主权项】:
1.一种讲话者推定方法,根据声音和图像,推定讲话者,其特征在于,具有:输入声音的步骤;从所输入的上述声音中提取表示音质的特征量的步骤;输入图像的步骤;从所输入的上述图像中检测各人物的人物区域的步骤;根据检测出的各个上述人物区域,推定表示音质的特征量的步骤;在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤;计算从声音中提取的表示音质的特征量与根据图像的人物区域推定的表示音质的特征量的类似度的步骤;以及根据计算出的该类似度,推定讲话者的步骤。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910043264.8/,转载请声明来源钻瓜专利网。