[发明专利]讲话者推定方法及讲话者推定装置在审

申请号：	201910043264.8	申请日：	2019-01-17
公开（公告）号：	CN110223700A	公开（公告）日：	2019-09-10
发明（设计）人：	堀口翔太;神田直之	申请（专利权）人：	株式会社日立制作所
主分类号：	G10L17/06	分类号：	G10L17/06;G10L17/02;G06K9/00
代理公司：	永新专利商标代理有限公司 72002	代理人：	安香子
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：	目的是提供对于任意的人物根据声音和并不一定在讲话中被摄像的人物的图像进行讲话者推定的讲话者推定方法及讲话者推定装置。一种根据声音和图像推定讲话者的讲话者推定方法，具有：输入声音的步骤；从输入的声音中提取表示音质的特征量的步骤；输入图像的步骤；根据输入的图像进行各人物的人物区域的检测的步骤；根据检测出的各个人物区域推定表示音质的特征量的步骤；在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤；计算从声音中提取的表示音质的特征量和根据图像的人物区域推定出的表示音质的特征量的类似度的步骤；以及根据该计算出的类似度推定讲话者的步骤。
搜索关键词：	推定特征量讲话音质图像人物区域推定装置类似度检测输入声音输入图像摄像变更
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种讲话者推定方法，根据声音和图像，推定讲话者，其特征在于，具有：输入声音的步骤；从所输入的上述声音中提取表示音质的特征量的步骤；输入图像的步骤；从所输入的上述图像中检测各人物的人物区域的步骤；根据检测出的各个上述人物区域，推定表示音质的特征量的步骤；在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤；计算从声音中提取的表示音质的特征量与根据图像的人物区域推定的表示音质的特征量的类似度的步骤；以及根据计算出的该类似度，推定讲话者的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所，未经株式会社日立制作所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910043264.8/，转载请声明来源钻瓜专利网。

上一篇：一种说话人身份确认方法、装置及存储介质
下一篇：用于从缩混信号产生音频输出信号的解码器和方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]讲话者推定方法及讲话者推定装置在审

专利文献下载