[发明专利]音频数据的处理在审
申请号: | 201380077061.1 | 申请日: | 2013-05-31 |
公开(公告)号: | CN105378830A | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | M.卡迪卡曼内森;D.普耶;T.B.罗斯彻尔 | 申请(专利权)人: | 朗桑有限公司 |
主分类号: | G10L15/065 | 分类号: | G10L15/065;G10L15/197;G10L15/26;G06F17/30;G06F17/20;G06F17/24;G06F17/27;G10L15/22 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 王岳;陈岚 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 数据 处理 | ||
背景技术
全世界的广播媒体内容量日益增加。例如,越来越多的数字化广播变得可用于公用和私用方。这些广播包括电视和无线电节目、演讲和语音。在某些情况下,经常存在以隐藏字幕(closed-caption)准确标记这样的广播的需要。例如,为了满足可访问性需要,隐藏字幕文本需要伴随广播,例如与音频和/或视频内容同时显示。这在某些管辖范围中正成为法律要件。在研究和产品开发团队中,也期望将文本数据与相关联的音频数据对准,使得可以在信息检索和机器智能应用中使用这两种媒体。
附图说明
本发明的各种特征和优点根据以下结合附图所采取的具体实施方式将是明显的,所述具体实施方式和附图仅以示例的方式一起说明了本公开的特征,并且其中:
图1是根据示例的系统的示意图;
图2A是示出了根据示例的音频数据的至少部分的示意图;
图2B是示出了根据示例的文本数据的至少部分的示意图;
图3是示出了根据示例的处理音频数据的方法的流程图;
图4A是根据示例的用于对准音频和文本数据的系统的示意图;
图4B是示出了根据示例的具有附加的定时信息的文本数据的至少部分的示意图;
图4C是根据示例的用于对准音频和文本数据的系统的示意图;
图5是示出了根据示例的音频处理的方法的流程图;
图6是示出了根据示例的确定音频数据的至少部分的关联的方法的流程图;
图7是示出了根据示例的用于处理音频数据的至少部分的系统的示意图;
图8是示出了根据示例的确定音频数据的至少部分的关联的方法的流程图;以及
图9是根据示例的计算设备的示意图。
具体实施方式
本文描述的某些示例涉及处理音频数据。特别地,它们涉及基于根据相关联的文本数据所生成的语言模型来处理音频数据。该文本数据可以是与音频数据相关联的抄本(transcript)。在一个示例中,音频数据被转换为文本等同物,所述文本等同物是来自音频处理的输出。在该情况下,音频处理的进一步的输出是涉及音频数据内的诸如所说的(spoken)词之类的特定音频部分的时间位置的定时信息。可以通过将原始文本数据与通过音频处理输出的文本等同物相比较来将定时信息附加到原始文本数据。在另一示例中,从将音频数据转换为文本等同物的过程输出诸如置信度值之类的概率变量。例如,置信度值可以与在文本等同物中的词相关联。然后,这些概率变量可以被用于将文本数据与音频数据匹配和/或确定用于未标记的音频数据的语言。
为了更好地理解本文描述的数个示例,现在将利用用于音频和文本数据的处理的数个替代技术进行比较。在某些当前描述的示例的上下文中讨论这些替代技术。
传统上,人工地执行将广播媒体与准确的抄本对准的任务。例如,可以人工地检查和匹配它们。这经常是慢速并且昂贵的过程。也易出现人工误差。例如,可能需要一个或多个人来物理地听和/或观看广播,并且人工地记录词在抄本中出现的时间。
已经做出尝试以克服人工对准的限制。一种尝试涉及使用被称为强制对准(force-alignment)的技术。该技术对音频文件和相关联的抄本文件进行操作。其确定抄本文件中的词序列和音频文件中的音频数据之间的最佳匹配。例如,这可以涉及从抄录文件中的确切的词序列生成隐式马尔科夫模型。然后可以例如通过选择使似然值最大化的匹配来概率地确定隐式马尔科夫模型和音频数据之间的最可能的匹配。
虽然强制对准可以提供传统人工过程上的改善,但其在各种情况下可能不提供准确的对准。例如,该过程可能易受抄本中的不准确的影响。存在于音频数据中但从抄本遗漏的所说的词和/或存在于抄本中但从音频数据遗漏的书写的(written)词可能导致未对准和/或生成匹配的问题。因为强制对准基于抄本文件中的确切的词序列建立概率网络,所以遗漏和/或额外的词可能导致概率网络和音频数据之间的不匹配。例如,被省略的上下文周围的至少数个词可能被不准确地时间对准。作为另一示例,该过程可能易受音频数据中的噪声的影响。例如,当在音频数据中存在音乐和/或音效时,该过程可能经受准确度损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朗桑有限公司,未经朗桑有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380077061.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置