[发明专利]用于对齐文本的方法和装置有效
申请号: | 200910168621.X | 申请日: | 2009-08-28 |
公开(公告)号: | CN101996631A | 公开(公告)日: | 2011-03-30 |
发明(设计)人: | 张世磊;施勤;双志伟;秦勇;周杰 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L13/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 吴立明;唐文静 |
地址: | 美国纽*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 对齐 文本 方法 装置 | ||
1.一种用于对齐文本的方法,包括以下步骤:
获取目标文本和参考文本;
基于音素相似度,在字的级别对齐所述目标文本和所述参考文本。
2.根据权利要求1所述的方法,其中所述目标文本是通过对语音数据进行语音识别而得到的,所述参考文本是语音数据的参考文本。
3.根据权利要求2所述的方法,进一步包括步骤:基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接。
4.根据权利要求1至3中任一所述的方法,其中所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤包括:
解析出所述目标文本对应的音素以及所述参考文本对应的音素;
使用动态时间规整DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
基于所述最佳路径,对齐所述目标文本和参考文本。
5.根据权利要求4所述的方法,其中,所述路径惩罚值是路径的每一步的惩罚值的和,路径的每一步的惩罚值按以下计算:
针对相同的字,惩罚值为0;
针对替代错误,惩罚值对应于两个字的发音相似度,所述发音相似度基于其对应的音素相似度;和
针对插入错误或者删除错误,惩罚值是一个常量。
6.根据权利要求1-5中任一所述的方法,其中,所述音素相似度是预先确定的。
7.根据权利要求1-5中任意一项所述的方法,其中所述音素相似度由音素的声学模型距离来度量。
8.根据权利要求7所述的方法,其中所述声学模型距离包括:欧式距离、马氏距离或者巴特查里亚距离。
9.根据权利要求1-3任一所述的方法,其中在所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤之前进一步包括步骤:基于混淆度,在段落级别对齐所述目标文本与所述参考文本。
10.根据权利要求9所述的方法,其中所述基于混淆度在段落级别对齐所述目标文本与所述参考文本的步骤包括:
针对参考文本的每个段落,建立语言模型;
基于所述语言模型,针对目标文本的每个句子到每个段落的可能的映射,计算混淆度分数;
选择混淆度分数为小的映射结果,将目标文本中的每个句子映射到不同的段落。
11.根据权利要求10所述的方法,其中所述基于混淆度在段落级别对齐所述目标文本与所述参考文本的步骤进一步包括:
对所述选择的映射结果进行平滑。
12.根据权利要求1-11任一所述的方法,其中在所述基于音素相似度在字的级别对齐所述目标文本和所述参考文本的步骤之前进一步包括步骤:针对所述目标文本和所述参考文本进行连续字串匹配,以确定锚点,从而将所述目标文本和所述参考文本划分成更小的片段。
13.一种用于对齐文本的装置,包括:
输入模块,用于获取目标文本和参考文本;
字对齐模块,用于基于音素相似度,在字的级别对齐所述目标文本和所述参考文本。
14.根据权利要求13所述的装置,其中所述目标文本是通过对语音数据进行语音识别而得到的,所述参考文本是语音数据的参考文本。
15.根据权利要求14所述的装置,进一步包括:链接模块,用于基于所述目标文本与所述参考文本的对齐,在所述语音数据与所述参考文本之间建立时间链接。
16.根据权利要求13-15任一所述的装置,其中所述字对齐模块包括:
解析模块,用于解析出所述目标文本对应的音素以及所述参考文本对应的音素;
动态时间规整DTW模块,其使用DTW算法,利用音素相似度计算路径惩罚值,并利用所述路径惩罚值找到匹配所述目标文本与所述参考文本的最佳路径;以及
对齐子模块,其基于所述最佳路径,对齐所述目标文本和参考文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910168621.X/1.html,转载请声明来源钻瓜专利网。