[发明专利]提高文本和语音匹配效率的方法无效
申请号: | 200610114622.2 | 申请日: | 2006-11-17 |
公开(公告)号: | CN101188110A | 公开(公告)日: | 2008-05-28 |
发明(设计)人: | 陈健全 | 申请(专利权)人: | 陈健全 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/26;G10L15/00;G10L15/28;G10L13/00 |
代理公司: | 北京北新智诚知识产权代理有限公司 | 代理人: | 张卫华 |
地址: | 337100*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提高 文本 语音 匹配 效率 方法 | ||
技术领域
本发明涉及一种提高文本和语音匹配效率的方法。
背景技术
在练习外语听力时,我们需要知道正在播放的外语所对应的文字,从而知道自己理解的程度。例如,电脑正在播放”how are you dong?”的一段录音,有的人可能只听懂了一两个单词,如果没有看到”how are you dong?”的文本,他就不知道自己理解的程度。现在有一些程序可以帮助人匹配文本和语音,但是这些程序需要人的介入,即手工拷贝粘贴文本。其大致步骤如下:首先听一段音频,看一下时间,记下音频结尾距离开始的时间差,然后选择、拷贝并粘贴文本,把时间插在文本后(如lyrics文件格式,“how are you doing?[00:21.18]”),这种匹配方法枯燥无味,非常低效,而且容易出错。
经本发明人研究发现,导致匹配效率低下的原因是人的介入,现有方法的两大瓶颈步骤是人工确定句子结尾并记下时间差,和选择、拷贝、粘贴文本等动作。
发明内容
鉴于上述,本发明提出了一种提高文本和语音匹配效率的方法,其包括以下步骤:
步骤1用语音识别软件识别语音文件得到带时间戳的文本;
步骤2将带时间戳的文本与用户输入的文本比对;
步骤3将带时间戳的文本中的时间戳赋给用户输入的文本。
其中:
在所述步骤1中,对应于同一个语音音频文件,输入利用语音识别软件识别出的文本和用户提供的文本,分别简称为S字符串和Y字符串,S字符串中带有时间戳;
所述步骤2进一步分为:
步骤20:从S字符串和Y字符串中删除标点符号,对Y串中的标点符号左侧第一个单词作出被删除标点符号的标记,在S字符串和Y字符串中,用单个空白字符取代连续的空白字符,用一个除字母和标点符号外的字符替代空白字符;
步骤21:对S字符串和Y字符串进行逐字符比较,并对齐S字符串和Y字符串;
所述步骤3进一步分为:
步骤30:在对齐的两个字符串中于相同位置或相近位置处寻找相同和非常相似的单词,这些单词被称为锚单词,以每个锚单词右侧的第一个空白字符的位置为分割点,将S字符串和Y字符串在该分割点处分割,这样S字符串和Y字符串被分割成同样数目的子字符串;
步骤31:将S字符串的子字符串和Y字符串的子字符串从左到右一一对应;
步骤32:如果S字符串的子字符串的锚单词后面没有识别软件提供的时间戳,则将S字符串和Y字符串的子字符串分别与同串的下一个子字符串合并,如果S字符串中合并后的新子字符串的锚单词后面仍然没有时间戳,则继续与下一个子字符串合并,直至S字符串中新子字符串的锚单词后面带有时间戳为止,然后把S字符串的子字符串的锚单词后面的时间戳赋给Y字符串的子字符串的最后的单词,这样Y串的子字符串都带有时间戳;
步骤33:如果表示一个句子终结的标点符号的前面的字符串的时间戳不是落在语音波谷,则比较波峰两侧的波谷的长度,将时间戳移到较长的波谷的开始处,在同一个波谷的结束处加上一个时间戳;如果时间戳落在波谷中间而且波谷的宽度超过0.3秒,将时间戳移至波谷开始处,在同一个波谷处的结束处加上一个时间戳;
步骤34:在Y字符串中,用空白字符替换先前替代空白字符的字符,在标记被删除标点符号的单词后加回标点符号,即得到我们所需的带时间戳的用户提供的字符串。
在所述步骤21中,采用以下算法之一对S字符串和Y字符串进行逐字符比较和对齐:基于Smith Waterman算法、Needleman-Wunsch算法、BLAST算法,FASTA算法,Clustal算法、遗传算法、模拟退火算法、Hidden Markov Model对齐算法。
在所述步骤32中,把S字符串的子字符串的锚单词后面的时间戳赋给Y字符串的子字符串的最后的单词以后,如果Y字符串的某些子字符串被标记带有标点符号,这些子字符串将于标点符号附近分裂成更小的字符串,则在这些子字符串的标点符号后面加上时间戳,该时间戳为前一个子字符串的时间戳与该子字符串中标点符号前的小字符串的时长之和,该小字符串的时长根据其有意义的字符的个数在所属子字符串中的比例分配。
在所述步骤20中,标记被删除标点符号的方法是:每一个单词在Y串中有一个位置,对Y字符串中的每一个单词构造一个类,其第一个数据成员表示带有标点符号的单词在Y串的位置,第二个数据成员表示该单词后面所带的标点符号。
在所述步骤20中,包括将Y字符串中的数字用对应的外语单词代替。
在所述步骤20中,用一个下划线替代空白字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈健全,未经陈健全许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610114622.2/2.html,转载请声明来源钻瓜专利网。