[发明专利]索引用于文件检索的文件的方法及装置有效
申请号: | 201280024604.9 | 申请日: | 2012-03-28 |
公开(公告)号: | CN103548015B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 黄建霖;马斌;李海州 | 申请(专利权)人: | 新加坡科技研究局 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/30;G10L15/26 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 余朦,王艳春 |
地址: | 新加坡*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 用于 文件 检索 方法 装置 计算机 可读 媒介 | ||
技术领域
本发明涉及索引用于文件检索的文件的方法、装置以及计算机可读媒介。
背景技术
说话是用于人与人和人与机器的相互作用的最方便的方式。在教育、商业和娱乐中应用语音文件检索(SDR)正在快速增长。成功的示例包括多语言口述历史档案访问。
传统手段聚焦在检索信息并试图满足用户的需求。由于语音的变化,难以直接比较语音查询与数据库中的语音文件。为了构造高效且有效的检索系统,现有技术的语音文件检索(SDR)技术采用从自动语音识别获得的用于索引的转换。向量空间模型和概率模型依赖于一些相似性功能,这些相似性功能假定如果文件包括查询术语的更多次出现,则该文件更有可能与查询相关。
基于文本的信息检索的索引技术已广泛地使用在语音文件检索中。然而,由于不完美的语音识别、未登录词汇、同音字歧义以及词语符号化,传统的基于文本的索引技术的方法并不总是适于语音文件检索。转换错误可致使不期望的语义与语法表达,因此导致不充分的索引。已经提出了多个手段以利用多种索引单元(如词语,子词、音素等)解决这些问题。
发明内容
多个实施方式提供了索引用于文件检索的文件的方法,其包括:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。
在一实施方式中,使用所述文件向量和语义关系矩阵计算文件语义推断向量,以用于所述文件中存在的所述多个术语中的每个。
在一实施方式中,通过将所述文件语义推断向量加起来,计算所述文件语义背景推断向量。
在一实施方式中,产生所述语义关系矩阵还包括以下步骤:使用多个文件产生术语-文件矩阵,所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中;以及通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵,所述术语-术语矩阵为所述语义关系矩阵。
在一实施方式中,对所述术语-文件矩阵应用术语加权方案,以抑制噪音术语。
在一实施方式中,根据以下表达式应用所述术语加权方案:
其中为所述术语-文件矩阵W的被加权术语;D表示所述多个文件中文件的总数;K为所述多个术语中术语的数目;tf(ak,d)表示术语在文件d中出现的次数;df(ak)是所述术语至少出现一次的文件的数目。
在一实施方式中,根据以下表达式执行所述术语-术语矩阵:
其中为所述术语-术语矩阵;W为所述术语-文件矩阵;以及T表示矩阵转置。
在一实施方式中,根据以下表达式执行所述术语-术语矩阵的奇异值分解:
其中为所述术语-术语矩阵;U为左奇异矩阵;V为右奇异矩阵;Σ为R×R对角矩阵,该对角矩阵的非负值为以递减次序排列的R个奇异值,R为分解的阶数;以及T表示矩阵转置。
在一实施方式中,基于以下表达式减少所述术语-文件矩阵的维数:
其中θ为经验性地用于基于具有第一R维度的所述本征值选择所述本征向量的阈值,R≤K表示原始术语向量在本征空间中的投影维度。
在一实施方式中,根据以下表达式产生所述术语-术语矩阵:
其中为所述术语-术语语义关系矩阵,T表示矩阵置换。
在一实施方式中,所述方法还包括:接收搜索查询;以及基于使用所述文件语义背景推断向量和所述搜索查询的比较,检索所述文件。
在一实施方式中,检索所述文件还包括:产生搜索查询向量,所述搜索查询向量指示所述多个术语中的每个是否存在于所述搜索查询中;使用所述搜索查询向量和所述语义关系矩阵,计算搜索查询语义推断向量,所述搜索查询语义推断向量用于所述搜索查询中存在的所述多个术语中的一个或多个;基于每个搜索查询语义推断向量,计算搜索查询语义背景推断向量。以及基于所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的比较,检索所述文件。
在一实施方式中,使用所述搜索查询向量和语义关系矩阵计算搜索查询语义推断向量,以用于所述搜索查询中存在的所述多个术语中的每个。
在一实施方式中,通过将所述搜索查询语义推断向量加起来,计算所述搜索查询语义背景推断向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡科技研究局,未经新加坡科技研究局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280024604.9/2.html,转载请声明来源钻瓜专利网。