[发明专利]语音索引删减有效

专利信息
申请号: 200680041634.5 申请日: 2006-10-31
公开(公告)号: CN101305362A 公开(公告)日: 2008-11-12
发明(设计)人: A·阿塞罗;C·I·克尔伯;J·S·F·桑切斯 申请(专利权)人: 微软公司
主分类号: G06F17/20 分类号: G06F17/20;G06F17/28;G06F17/30
代理公司: 上海专利商标事务所有限公司 代理人: 陈斌
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 索引 删减
【说明书】:

背景

发明涉及索引口语文档,尤其涉及删减口语文档的索引。

在大量文档集合中搜索感兴趣的特定文档在计算环境中变得普通。具体 地,对在因特网上找到的网页执行的搜索是由大量的搜索服务来执行的。

为了执行这些基于文本的搜索,搜索服务通常构建倒排索引,所述倒排索 引对于搜索服务所覆盖的文档中的找到的每个词语有单独的条目。每个条目列 出可以找到词语的所有文档和文档中可以找到词语的所有位置。许多这些搜索 服务使用位置信息来确定文档是否包含特定顺序和/或彼此在特定距离内的词 语。该顺序和距离信息接着可用于基于输入查询来排列文档,具有与查询相同 顺序的查询词语的文档比其他文档排位更高。没有位置信息,这种基于词语顺 序的文档排序是不可能的。

试图对口语文档构建索引,其中口语文档是一个语音信号或者被组合在一 起作为单个实体的多个语音信号。例如,与特定会议或演讲相关联的语音信号 可以被组合成单个口语文档。同样,可以将诸如电影或动画等多媒体文档视为 语音文档。

为了索引口语文档,首先必须将语音信号转换成文本。这是通过使用语音 识别系统来解码语音信号来完成的。这种语音识别系统使用声学模型和语言模 型来对可由语音信号表示的可能词语序列评分。在许多系统中,基于语音信号 构建可能的词语串的网格(lattice),通过具有最高分的网格的路径被标识为 由语音信号表示的单个词语串。

在以往的语音索引系统中,对来自语音信号的文本的该单个最佳估计被用 于创建口语文档的索引。使用来自语音识别器的单个串输出提供了标记口语文 档中特定词语彼此相对的位置的能力。由此,为文本索引而开发的相同的排序 系统可以被应用到这些口语文档索引系统上。

不幸的是,语音识别并不完美。结果,所识别出的文本包含错误。这产生 了带有错误的索引,使得系统在搜索期间并不可靠。

以上讨论仅提供了一般的背景信息,而并不旨在用于协助确定所要求保护 的主题的范围。

概述

语音段是通过为语音段标识至少两个替换的词语序列来索引的。对于替换 序列中的每个词语,信息被置于索引中该词语的条目中。基于词语出现在语音 段中的概率与阈值的比较,从索引中的条目删除语音单元。

提供本概述以便用简化的形式介绍将在以下详细描述中进一步描述的一 些概念。本概述并不旨在确定所要求保护的主题的关键或必要特征,也不旨在 用于帮助确定所要求保护的主题的范围。

附图简述

图1是计算环境的框图。

图2是移动设备计算环境的框图。

图3A和3B分别是索引语音段和搜索语音段的索引的方法的流程图。

图4是用于索引语音段和搜索语音段的索引的元素的框图。

图5是识别网格的示例。

图6示出了分割到各位置中的词语和节点的关联。

图7是位置专用后验网格的示例。

图8是语音索引的一部分的示例。

详细描述

示例性环境

图1示出了其中可实现本发明的合适的计算系统环境100的一个示例。计 算系统环境100仅为合适的计算环境的一个示例,并非对本发明的使用范围或 功能提出任何局限。也不应将计算环境100解释为对示例性操作环境100中示 出的任一组件或其组合具有任何依赖或需求。

本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适用于 本发明的众所周知的计算系统、环境和/或配置的例子包括但不限于,个人计算 机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、 机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包 括任一上述系统或设备的分布式计算环境等等。

本发明可以在诸如由计算机执行的程序模块等计算机可执行指令的一般 上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据 结构等等,它们执行特定的任务或实现特定的抽象数据类型。一些实施例被设 计成在分布式计算环境中实践,其中,任务由通过通信网络链接的远程处理设 备来执行。在分布式计算环境中,程序模块可以位于包括存储器存储设备的本 地和远程计算机存储介质中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200680041634.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top