[发明专利]用于对话可懂度评估的方法和装置在审
申请号: | 201980103515.5 | 申请日: | 2019-12-23 |
公开(公告)号: | CN115053289A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | D·C·普罗文西奥;M·沃尔什;B·斯莱克;E·斯特因 | 申请(专利权)人: | DTS公司 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/69;G10L15/10 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 鲍进 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 对话 可懂度 评估 方法 装置 | ||
本公开提供了一种方法,包括:获得包括与非对话声音混音的对话的混音音轨;将混音音轨转换成比较文本;获得对话的参考文本作为对话的可懂度的参考;基于比较文本与参考文本的比较,确定混音音轨的对话对听者的可懂度的测量;以及报告对话的可懂度的测量。
技术领域
本公开涉及评估音轨上对话的可懂度(intelligibility)。
背景技术
在娱乐行业中,内容分发者将诸如电影和电视(TV)节目之类的视听内容流传输到消费者以供消费者消费该内容。关于音频,内容制作者面临的重大问题是消费者不断抱怨他们无法在家中正确听到和理解来自其流传输的内容的对话。解决该问题的常规方法试图通过传统的数字信号处理(DSP)技术来提高对话的语音可懂度,诸如提高人声频率范围。该常规方法一般假设DSP技术解决了“可理解性(understandability)”问题,但没有评估或解决消费者在附加处理之前或之后对对话的实际理解程度。这导致问题(即,消费者对对话可懂度差的抱怨)与其解决方案之间存在质量控制(QC)差距,从而使负责实现解决方案的内容制作者和/或音响工程师不知道他们是否真得充分解决了所报告的问题。
附图说明
图1是示例声音工程环境的框图,该环境用于评估和提高听者对音轨的对话的可懂度。
图2是由声音工程环境的对话分析器执行的使用仅对话音轨作为对照其测量可懂度的参考来评估混音音轨的对话的可懂度的示例第一方法的图示。
图3是由对话分析器执行的使用对话的基于文本的字幕作为对照其测量可懂度的参考来评估混音音轨的对话的可懂度的示例第二方法的图示。
图4A是与通过对话分析器的ASR引擎将音轨对话的相继时间切片转换成参考/比较文本的对应相继片段相关联的示例定时的图示。
图4B是字幕块与和固定持续时间的对话的时间切片对应的自动语音识别(ASR)文本片段的示例文本匹配的图示。
图5是由对话分析器生成的对话的可懂度测量(以直方图形式显示)相对于时间的图形式的示例对话可懂度报告的图示,其是参考文本与比较文本之间的比较的结果。
图6是参考字幕的原始混音音轨的对话的可懂度的测量的图形式并指示字幕的质量的示例对话可懂度报告的图示。
图7是参考字幕的经修正的混音音轨的对话的可懂度的测量的图形式的示例对话可懂度报告的图示。
图8是表格形式的示例可懂度报告的图示,该表格具有用于来自图6和7的对话的相继时间切片的行,以及用于与每个时间切片对应的各种数据的列。
图9是示例对话可懂度报告的图示,该报告包括从比较结果生成的元数据。
图10是由对话分析器生成的文本距离相对于时间的极坐标图形式的示例对话可懂度报告的图示,其是使用Editex文本距离算法在参考文本与比较文本之间进行比较的结果。
图11是由对话分析器生成的文本距离相对于时间的极坐标图形式的示例对话可懂度报告的图示,其是使用余弦文本距离算法在参考文本与比较文本之间进行比较的结果。
图12是评估音轨中对话的可懂度的示例高级方法的流程图。
图13是可以在其中实现音频分析器的示例计算机系统/设备的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于DTS公司,未经DTS公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980103515.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:丝网印刷装置及丝网印刷方法
- 下一篇:紧凑型天线阻抗调谐器