[发明专利]计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统无效
申请号: | 200980105767.8 | 申请日: | 2009-02-25 |
公开(公告)号: | CN101952824A | 公开(公告)日: | 2011-01-19 |
发明(设计)人: | 比克沙·罗摩克里希纳;埃万德罗·B·戈维亚;本特·施密特-尼尔森;加勒特·魏因贝格;布雷特·A·哈沙姆 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉;孙海龙 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 执行 数据库 中的 文献 进行 索引 检索 方法 以及 信息 检索系统 | ||
技术领域
本发明总体上涉及信息检索,更具体地涉及对数据库中的文献进行索引和检索。
背景技术
检索与文本查询有关的文献的信息检索系统是很普遍的。文献通常为字词的集合,该字词的集合直接由该集合中的字词来索引或通过字词-计数矢量(通常称为文献矢量)的线性变换来索引。查询还可以被表示为用于根据索引检索文献的字词的集合,或被表示为与文献矢量相比较来识别与查询最相关的文献的字词-计数矢量。向用户返回的相关文献通常被称为结果集。
自动语音识别(ASR)系统的不断增加的可用性允许从基于文本的信息检索系统扩展到说出文献或查询的系统。
讲话式文献检索系统可以为广播新闻节目的音频录音、播客、会议记录、演讲、表演等编索引。通常,先人工地或使用ASR系统地将讲话式文献转录为文本。将文本中所得到的字词存储在数据库索引中。将查询与字词索引相匹配,并向用户返回文本式抄本或音频记录。
讲话式查询系统使用语音来查询文献检索系统。再一次,使用ASR系统将查询转换为字词的形式并与索引匹配以进行检索。
在上述的全部情况下,索引系统所使用的基本单位为字词。在纯粹的基于文本的系统中,文献和查询都为文本,利用文献中的字词对文献进行索引,并将查询中的字词与索引中的字词进行匹配。在文献或查询为讲话形式时,首先将字词转换为字词序列或字词网格,再将其用于构造字词索引或对照字词索引对查询进行匹配。
基于字词的索引方案具有基本的限制,当查询或文献是讲话形式时尤其如此。ASR系统具有有限的词汇量。系统可以识别的字词的词汇量必需首先被指定。这还意味着只要将包括了当前识别器的词汇量中没有的字词的文献加入到索引,就必需更新识别器的词汇量。
在讲话式文献的情况下,由于新的文献的词汇量不能完全地被事先获知,因此会存在问题。对于讲话式查询,这暗示了只要对文献索引进行了更新,就必需对用于输入查询的系统进行更新。在许多应用中这是不切实际的要求。即使文献和查询都是完全基于文本的,基于文本的索引也面临拼错的问题。查询中的字词经常被用户拼写为不同于文献中的字词,当该字词是新词或很复杂时尤其如此。显然,当在文献中拼写的字词和在查询中拼写的字词不匹配时,会对检索产生不利的影响。
文献检索系统通常从数据库中返回被认为是与用户查询中的字词相关的一个或更多个文献。术语“文献”的解释是很广义的。例如,对来自网络的文献的检索和对来自个人计算机的文件的检索,或者对来自由元数据所描述的歌曲集合中的音乐的检索都可以被看作是“文献”检索的实例。
很明显,并不是文献中的所有信息都适于通过菜单进行遍历的树型结构对话。需要使用通常被称为“信息检索”(IR)的、不依赖于文献中信息的结构的技术来对信息进行检索。
文献并不总是基于文本的。文献还可以包括讲话式数据(如广播新闻节目、讨论会和演讲、公共致辞、会议等)的记录。同样地、用于从数据库中检索文献的查询也不需要一定是文本的。查询也可以被说出。
基于文本的检索
图1示出了常规的基于文本的系统,文献101和查询102都是文本形式。从所有文献抽出(见103)的字词或字词式样的集合被用于构建文献索引104。还可以从查询中抽出(见105)字词或字词式样。该索引具有字词,各字词指向出现了该字词的每一文献,或者该索引具有针对各文献的字词计数矢量。该字词计数矢量具有各字词在文献中出现的次数。
于是可以按照与索引的结构相一致的方式对查询进行处理,对文献的结果集合107进行评分和排序(见106),并返回给用户。
讲话式文献检索
如图2所示,讲话式文献201包括语音的音频记录,如上面所述。对该语音进行识别(步骤202)。有时需要响应于查询102对这种文献编索引并进行检索。
常规的检索讲话式文献的方法是使用ASR系统将文献转换为字词序列。接着按照与文本文献相同的方式对转换后的文献编索引并进行检索。
众所周知,ASR系统本质上是不准确的。由此识别出的针对任何文献的字词可能包含多个错误,该错误将会导致响应于查询而检索到错误的文献。为了解决该问题,通常以字词网格来表示文献,在对文献进行解码时识别器会考虑该字词网格。另选地,可以采用n-最好列表(即识别器为文献生成的前N个识别假定)来表示文献。接着通过从字词网格n-最好列表得到的字词(或字词计数矢量)对文献编索引。其余的索引编排方法和检索过程与文本文献的相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200980105767.8/2.html,转载请声明来源钻瓜专利网。