[发明专利]用于音频辨识的扩展的视频镜头媒体引擎无效
申请号: | 201210206001.2 | 申请日: | 2012-06-14 |
公开(公告)号: | CN102915320A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 普里彦·甘塔堤雷克;董·恩古因;阿布希舍克·帕提尔;迪鹏杜·萨哈 | 申请(专利权)人: | 索尼公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 宋鹤 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 音频 辨识 扩展 视频 镜头 媒体 引擎 | ||
1.一种用于自动分析多媒体数据的方法,包括:
接收多媒体数据;
识别具有目标音频内容特征的至少一个多媒体数据部分;
辨识所识别特征的至少一个方面;以及
响应性地输出对所述方面的指示。
2.根据权利要求1所述的方法,其中所述分析实时地发生,由资源受限消费类应用来执行,并对包括采样的音频帧的RMS功率和非线性梅尔测度频率上的短期MFC功率谱表示中的至少一个的音频特征进行操作。
3.根据权利要求1所述的方法,其中所述多媒体数据包括音频内容、视频内容、压缩的多媒体数据、未压缩的多媒体数据、下载的数据、流传输的数据、在线数据和免费数据中的至少一个,并且其中所识别部分是音频剪辑、视频图像和视频剪辑中的至少一个。
4.根据权利要求1所述的方法,还包括生成与所述分析相对应的元数据。
5.根据权利要求1所述的方法,其中所述目标音频内容特征是人的对话、笑声、动物的声音和依地点而定的声音中的至少一个。
6.根据权利要求1所述的方法,其中所述目标音频内容特征是人的对话并且所述方面是正在说话的演员的名字和正在说话的角色的名字中的至少一个,
其中,所述方法还包括通过以下步骤来辨识所述方面:
将所识别部分与语音样本集进行比较来找出至少一个最佳匹配样本;以及
输出说话者姓名和角色姓名中的至少一个。
7.根据权利要求6所述的方法,其中所述比较步骤包括:
将语音样本表示为MFC系数向量和特征向量中的一个;
从所述表示计算欧几里得距离和相关量度中的至少一个;以及
按概率的次序输出至少一个最佳匹配样本,该最佳匹配样本具有低欧几里得距离和高相关量度中的至少一个,
其中,所述方法还包括应用最小差异阈值来排除不匹配样本。
8.根据权利要求1所述的方法,其中所述目标音频内容特征是人的对话并且所述方面包括字词和相应的时间戳,
其中,所述方法还包括通过以下步骤来辨识所述方面:
在所述字词不是文本形式的情况下选择性地将话音转换为文本;
选择最有意义的内容字词;以及
输出所选字词和相应的时间戳。
9.根据权利要求1所述的方法,还包括:
通过定向搜索找到与所述指示有关的更多多媒体数据;
存储对所述指示的用户确认;以及
通过合并在先辨识来改进辨识准确性,
其中,所述更多多媒体数据按照对用户兴趣的预期被预先取得,并且其中,所述更多多媒体数据包括相关电影、正上映的电影、电影预览、正发生的事件、档案、影片集锦、相关广告、有关辨识出的地点的信息和场景特性中的至少一个。
10.一种用于自动分析多媒体数据的系统,包括:
用于接收多媒体数据的装置;
用于识别具有目标音频内容特征的至少一个多媒体数据部分的装置;
用于辨识所识别特征的至少一个方面的装置;以及
用于响应性地输出对所述方面的指示的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210206001.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电力电子分散控制系统无线通信设备
- 下一篇:电力电子PLC实时响应系统