[发明专利]用于对齐文本的方法和装置有效
申请号: | 200910168621.X | 申请日: | 2009-08-28 |
公开(公告)号: | CN101996631A | 公开(公告)日: | 2011-03-30 |
发明(设计)人: | 张世磊;施勤;双志伟;秦勇;周杰 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L13/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 吴立明;唐文静 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 对齐 文本 方法 装置 | ||
技术领域
本发明涉及语音处理技术领域,具体地,涉及用于对齐文本的方法及其装置,用于自动归档多媒体资源的方法,以及用于自动检索多媒体资源的方法。
背景技术
目前,随着信息技术的发展,多媒体资源日益普遍,相应的用于存储多媒体资源的存储库的规模越来越庞大。例如,在新闻中心和电视台通常存在数量庞大的需要查询和管理的广播新闻资源,这些资源通常包括节目视频和广播稿。过去的节目视频往往没有集成用于查询内容的元数据,不便于查询和管理。而广播稿是文字文本,容易查询其中的内容,提供了查询节目视频的天然接口。如果人工来查询和管理这些广播新闻资源,则费时费力,并且很多时候不可能实现。因此,希望能够自动地对齐节目视频和广播稿。也希望能够自动地将节目视频和广播稿集成为便于检索的多媒体资源。希望检索引擎能够自动根据广播稿检索要查询的字或短语,从与广播稿对齐的音频文件中回放所查询的内容。
又如,目前在开会或演讲时,往往会记录视频或者音频。这些视频/音频形式的会议记录可以存放在服务器上供以后浏览。会议和演讲中使用的文稿,例如PPT(Powerpoint)文稿,提供了用于浏览会议记录的天然接口。在浏览文稿的同时回放会议记录的情况下,需要很好地同步文稿的文字内容和视频/音频形式的会议记录中的语音内容。
现有的方法首先找到对应的视频/音频和参考文本对,然后使用语音识别引擎来解码音频数据,获得语音识别结果。使用动态编程算法进行特征最大匹配,以便实现句子级别的对齐。这些方法受到识别率和参考文本的准确性的影响,在识别率低或者参考文本含错的情况下,对齐效果差,甚至可能不能输出对齐结果。而且,这些方法不能够获得精确的时间信息。
现有技术中还存在一些其他方法,使用基于音素的强制对齐来对齐视频/音频中的语音与参考文本。但是这些方法受到句子级别对齐的精度的影响,可能不能输出对齐结果;另一方面,含错的参考文本也限制了对齐效果。此外,强制对齐基于音素的声学模型,其计算量大。关于强制对齐的详细内容可以参见文献〔Lussier E F.ATutorial on pronunciation modeling for large vocabulary speechrecognition[J].Lecture Notes in Computer Science,2003,2705:38-77.〕。
美国专利申请公开US 5649060A1,“Automatic indexing andaligning of audio and text using speech recognition”,公开了一种方法,通过语音识别器产生语音识别结果,然后通过识别结果与正确文本的对齐,将时间信息传递给正确的文本,从而实现音频的自动编辑和检索。然而,该方法主要通过文字的相同来实现对齐,其对齐效果极大地依赖于语音识别效果,而且该方法不能用于对齐音频和含错的参考文本。
美国专利申请公开US2008294433A1提出了一种文本和语音的对应工具。其中,利用语音活动检测得到候选的句子端点,通过强制对齐的方法得到音频和句子的最优对应,然后再对齐下一个句子,以此类推得到所有的对应关系,最终实现词级的对齐。如前面所述的,强制对齐基于声学模型,所需的计算量大,并且在复杂语境下的对齐效果较差。
Jan Nouza等人的论文“Automatic Align between Speech Recordsand Their Text Transcriptions for Audio Archive Indexing andSearching”,INFOS2008,March 27-29,2008 Cairo-Egypt,公开了一种方法,首先通过文本得到与之相关的语言模型,进而根据该语言模型得到性能相对较好的识别结果,然后通过文本对齐的方法将标准文本分成小的片段,然后对于没有准确对齐的片段采用强制对齐的方式得到最优的对齐结果。其中对齐效果取决于自动语音识别(Automatic Speech Recognition,ASR)系统的识别结果,并且强制对齐所需的计算量大。
对于象相声或者脱口秀这类节目,语言非常自由,并且带有很多口音,语言识别效果很差。使用基于文字相同来对齐的现有方法,可能无法对齐节目和参考文本(例如,相声稿或者剧本),甚至不能输出对齐结果。使用强制对齐的方法,则计算量可能非常大。因为这种情况下很难准确划分句子,而越长的语音段的强制对齐,计算量越大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910168621.X/2.html,转载请声明来源钻瓜专利网。