[发明专利]语音索引删减有效
申请号: | 200680041634.5 | 申请日: | 2006-10-31 |
公开(公告)号: | CN101305362A | 公开(公告)日: | 2008-11-12 |
发明(设计)人: | A·阿塞罗;C·I·克尔伯;J·S·F·桑切斯 | 申请(专利权)人: | 微软公司 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/28;G06F17/30 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 索引 删减 | ||
1.一种索引语音段的方法,所述方法包括:
基于所述语音段标识至少两个替换语音单元序列(306);
对于所述至少两个替换语音单元序列中的每个语音单元,将指示所述两个 替换语音单元序列的至少一个中的语音单元的位置以及所述语音单元出现在 所述位置的概率的信息置于所述索引的条目中(312);以及
基于所述概率与阈值的比较,从所述索引的条目删去语音单元(313)。
2.如权利要求1所述的方法,其特征在于,所述从条目删去语音单元包 括将所述阈值与基于条目的至少两个所述语音单元的概率的相对概率作比较。
3.如权利要求1所述的方法,其特征在于,所述从条目删去语音单元包 括基于所述阈值与基于所述条目的最高概率和条目的候选语音单元的概率的 相对概率之间的比较来删去所述候选语音单元。
4.如权利要求1所述的方法,其特征在于,还包括在从所述条目删去语 音单元后,在至少一个所述条目中归一化所述语音单元的概率。
5.如权利要求1所述的方法,其特征在于,所述位置是相对词语位置。
6.如权利要求1所述的方法,其特征在于,还包括将单独的信息置于语 音单元的条目中,以便指示其中出现所述语音单元的至少两个替换语音单元序 列中的多个位置。
7.如权利要求6所述的方法,其特征在于,所述删去语音单元包括将所 述阈值与所述条目中的候选语音单元的概率作比较,并且从所述条目删去具有 未达到与所述阈值的预定关系的概率的候选语音单元。
8.如权利要求1所述的方法,其特征在于,还包括将单独的信息置于语 音单元的条目中,以便指示其中出现所述语音单元的至少两个替换语音单元序 列中的多个位置。
9.如权利要求1所述的方法,其特征在于,所述语音单元包括词语。
10.如权利要求1所述的方法,其特征在于,所述语音单元包括子词语。
11.一种用于搜索语音段的方法,包括:
接收搜索查询(315);
在语音索引中搜索与所述搜索查询中的词语相关联的条目(316);
从所述条目检索多个语音信号中的词语的多个位置,以及给定相应的语音 信号时所述词语在每个所述位置处出现的概率(317);
将所述位置的概率与阈值作比较,并且删去其概率未能达到与所述阈值的 预定义关系的那些位置(318);
使用所述概率相对于彼此排列对应于未被删去的位置的语音信号,以便形 成经排列的语音信号(319);以及
基于经排列的语音信号返回搜索结果(320)。
12.如权利要求11所述的方法,其特征在于,使用所述概率来排列所述 对应于未被删去的位置的语音信号包括通过以下步骤为语音信号形成分数:基 于所述概率形成一元分数来,并基于所述概率形成二元分数,以及从所述一元 分数和所述二元分数形成加权和,以形成所述语音信号的分数。
13.如权利要求11所述的方法,其特征在于,语音信号被分成段,且检 索位置包括检索所述语音信号的段内的位置。
14.如权利要求11所述的方法,其特征在于,还包括修改所述搜索查询 的词语以便形成经修改的词语,以及在所述索引中搜索与所述经修改的词语相 关联的条目。
15.一种搜索语音段的方法,包括:
访问包含从多个语音段生成的词语的位置的索引以及所述词语出现在所 述位置的概率(316);
检索阈值(315);
从所述索引检索一词语的一组概率(317);以及
基于所述一组概率中符合与所述阈值的预定义关系的概率,返回包含所述 词语的候选语音段的标识符(318、319、320)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680041634.5/1.html,转载请声明来源钻瓜专利网。