[发明专利]使用文本相似性将视觉标记映射到声音标记在审
申请号: | 202080032378.3 | 申请日: | 2020-04-14 |
公开(公告)号: | CN113767647A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | S.克里什纳默蒂 | 申请(专利权)人: | 索尼互动娱乐股份有限公司 |
主分类号: | H04R29/00 | 分类号: | H04R29/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 文本 相似性 视觉 标记 映射 声音 | ||
1.一种设备,其包括:
至少一个处理器;以及
至少一个计算机存储装置,所述至少一个计算机存储装置不是瞬时信号并且包括指令,所述指令能够由所述至少一个处理器执行以:
对音效(SFX)进行分类以呈现经分类的SFX;以及
在语义上将所述经分类的SFX的SFX标签与从对至少第一视频中的属性的视频识别导出的视觉标签进行匹配,以将与所述SFX标签相关联的经分类的SFX合并到所述第一视频中。
2.如权利要求1所述的设备,其中所述指令可执行以:
基于对所述第一视频中的至少一个对象的识别生成所述视觉标签。
3.如权利要求1所述的设备,其中所述指令可执行以:
基于对所述第一视频中的至少一个动作的识别生成所述视觉标签。
4.如权利要求1所述的设备,其中所述指令可执行以:
基于对所述第一视频中的至少一个字幕的识别生成所述视觉标签。
5.如权利要求1所述的设备,其中所述指令可执行以使用SFX标签与视觉标签之间的文本相似性在语义上将所述SFX标签与所述视觉标签进行匹配。
6.如权利要求1所述的设备,其中所述指令可执行以:
导出对应于所述视觉标签的第一数值向量;
导出对应于所述SFX标签的第二数值向量;以及
至少部分地通过计算所述第一向量与所述第二向量之间的距离来确定所述SFX标签与所述视觉标签的相似性。
7.如权利要求6所述的设备,其中所述指令可执行以:
响应于确定所述第一向量与和第一SFX标签相关联的第二向量之间的距离小于所述第一向量与和第二SFX标签相关联的第二向量之间的距离,确定所述第一SFX标签比所述第二SFX标签更类似于视觉标签。
8.如权利要求6所述的设备,其中所述指令可执行以:
将单个视觉标签映射到多个SFX标签。
9.一种方法,其包括:
生成描述至少第一视频的至少一个属性的至少一个视觉标记;以及
至少部分地基于所述视觉标记与至少一个SFX标记之间的语义相似性,将与所述SFX标记相关联的至少一个音效(SFX)与所述第一视频相关联。
10.如权利要求9所述的方法,其中所述属性包括对象。
11.如权利要求9所述的方法,其中所述属性包括动作。
12.如权利要求9所述的方法,其中所述属性包括字幕。
13.如权利要求9所述的方法,其包括使用SFX标记与视觉标记之间的文本相似性在语义上将所述SFX标记与所述视觉标记进行匹配。
14.如权利要求9所述的方法,其包括:
导出对应于所述视觉标记的第一数值向量;
导出对应于所述SFX标记的第二数值向量;以及
至少部分地通过计算所述第一向量与所述第二向量之间的距离来确定所述SFX标记与所述视觉标记的相似性。
15.如权利要求14所述的方法,其包括:
响应于确定所述第一向量与和第一SFX标记相关联的第二向量之间的距离小于所述第一向量与和第二SFX标记相关联的第二向量之间的距离,确定所述第一SFX标记比所述第二SFX标记更类似于视觉标记。
16.如权利要求9所述的方法,其包括:
将单个视觉标记映射到多个SFX标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼互动娱乐股份有限公司,未经索尼互动娱乐股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080032378.3/1.html,转载请声明来源钻瓜专利网。