[发明专利]索引和搜索带有文本元数据的语音有效

专利信息
申请号: 200680041464.0 申请日: 2006-10-31
公开(公告)号: CN101305360A 公开(公告)日: 2008-11-12
发明(设计)人: A·阿塞罗;C·I·克尔伯;J·S·F·桑彻斯 申请(专利权)人: 微软公司
主分类号: G06F17/20 分类号: G06F17/20;G06F17/28;G06F17/30
代理公司: 上海专利商标事务所有限公司 代理人: 陈斌
地址: 美国华*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 搜索 带有 文本 数据 语音
【说明书】:

背景

下面的讨论仅用于提供一般的背景技术信息而非用于帮助确定要求保护 主题的范围。

现在存在正在产生、交换和存储的大量各种类型数据。这是因为现在可用 的计算能力与连接带宽以及相对廉价的数据存储成本所致。因此,对数据进行 搜索并找到相关信息的能力随着越来越多数据被保存而显现为关键应用。

然而不是所有数据都能被轻易访问。尽管文本数据能被索引且因而相对容 易地搜索,但通常未转录的语音数据不是能容易地搜索的形式。手工转录语音 在时间与计算资源方面都是昂贵的,并且还引起私密性方面的问题。然而,随 着存储变得更廉价,将存储越来越多有用的未转录的语音数据,从而增加了对 该数据进行搜索的需求或要求。

概述

提供本概述以简化形式介绍在下面的详细描述中进一步描述的一些概念。 该概述不是要标识要求保护主题的关键特征或本质特征,也不用于帮助确定要 求保护主题的范围。另外,在此提供的描述和要求保护主题不应解释为其目标 是解决背景技术中讨论的任何缺点。

用于搜索具有语音数据和文本元数据的口语文档的索引是通过获得语音 数据中词语的出现概率和词语的位置信息并将它与文本元数据中这些词语的 至少位置信息组合起来而创建的。可以创建单个索引,因为语音数据和文本元 数据是被同样处理的并且仅被视为不同的类别。

在一个实施例中,索引包含语音数据和文本元数据(标题、发言人名字、 摘要等)的口语文档的方法包括生成与来自语音数据的经识别语音有关的信 息。具体地,该信息包括经识别语音中词语的出现概率和词语的位置信息。另 外,以与有关经识别语音的信息基本上相同的格式生成文本元数据中词语的至 少位置信息。这允许索引容易地被创建,因为有关语音数据的信息和有关文本 元数据的信息能以相同的方式来处理。

使用该索引,口语文档可以基于收到的查询来搜索。返回的文档按相关性 排列;然而,相关性是按搜索查询项在语音数据和/或文本元数据中的出现来计 算的。

附图简述

图1是计算环境的实施例的俯视图。

图2是替换计算环境的框图。

图3是构建与搜索口语文档的索引的方法的流程图。

图4是用于构建和搜索口语文档的索引的元素的框图。

图5是识别网格的示例。

图6示出已经分到各位置中的词语和节点之间的关联。

图7是位置专用后验网格的示例。

图8是索引的一部分的示例。

图9是口语文档的图示。

详细描述

在此描述的一个概念提供一种方法和/或系统,它使用语音和文本内容信 息进行文档检索,尤其是用于口语文档检索但并不限于此。

参考图9,如在50处图示的口语文档很少仅包含语音数据52。相反,文 本元数据54通常与语音数据52相关联且也形成文档50一部分。文本元数据 54可包含各种各样的信息,但一般可视为有关或关于相关联语音数据52的文 本信息。例如,如所示的,文本元数据54可包含文档50的标题56、发言人的 名字58和文档50的摘要或简短描述60以及语音数据52。然而,应当理解, 上述内容仅是文本元数据54的示例,并且文本元数据54可以包含其它形式的 文本信息,诸如但不限于:有关指向语音文件的http链接的锚文本、在给定网 页上环绕语音的文本、赞助者信息、事件的位置、日期与时间等等。这样的文 本元数据54可以分类为图9所图示的那样或者按需以任何其它方式来分组。

如下所述,语音数据52和文本元数据54被相似地处理并且在允许用户查 询口语文档50的集合并基于该查询确定该集合中哪些文档有可能相关的框架 中使用。为每一文档获得一个指示诸如分数,通过它可查明相关性。具体地, 分析可包括获得语音数据52和文本元数据54或其一部分的单独分数,这些分 数可组合起来以获得文档分数。

在下述实施例中,语音数据和文本元数据基于为每种类型数据生成位置专 用后验网格(Position Specific Posterior Lattice)(PSPL)来相似地处理。通过相 同地处理每种类型的数据,之后获得分数是一致且高效的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200680041464.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top