[发明专利]一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型在审
申请号: | 201910898272.0 | 申请日: | 2019-09-23 |
公开(公告)号: | CN111444414A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 胡泽婷;张鹏;蒋永余 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 建模 ad hoc 检索 任务 多样 相关 特征 信息 模型 | ||
本发明公开了一种用于建模ad‑hoc检索任务中多样相关特征的信息检索模型,即Match‑Transformer模型,包括以下步骤:根据topic收集语料集,将其分为训练集和测试集;对语料集中的查询和文档进行预处理;运用全局信息和局部信息,构建查询和文档的向量表示;将训练集查询和文档的向量表示输入到Match‑Transformer模型中计算文档的得分,并训练出最后的模型;将测试集中查询和文档的向量表示输入到Match‑Transformer模型中,从而计算出每个文档的最后得分;最后运用Learning‑to‑Rank模型去学习文档之间的相对位置信息,最终得到更加准确的文档排名结果;本发明克服了查询太短导致用户需求多样性和文档太长导致文本理解的多样性的困难,从而能够更好的利用查询和文档的多样相关特征,使得神经网络信息检索模型有较强的稳健性。
技术领域
本发明涉及文本信息检索技术领域,特别涉及一种用于建模ad-hoc检索任务中多样相关 特征的信息检索模型。
背景技术
随着互联网和智能科技的不断发展,信息检索不再只有个人电脑终端(PC)搜索,用户越 来越多的依赖移动设备来搜索他们需要的信息以及服务。信息检索模型的好坏直接影响到信 息检索的结果。因此,信息检索模型不仅具有重要的理论意义,而且蕴含巨大的社会价值。 本发明主要研究ad-hoc任务中的给定查询之下的文档排名,即查询和文档之间的相关性分析。
信息检索模型是信息检索的主要研究内容。目前的信息检索包括布尔模型、向量空间模 型、概率模型、语言模型等。这些模型提出的主要目的是通过数学或者其他语言工具去对信 息检索中的查询和文档及其匹配程度进行抽象描述。Ad-hoc是一种经典的检索任务,其中用 户通过查询指定用户的信息需求,该查询启动搜索(由信息系统执行)以查找可能与用户相 关的文档。ad-hoc信息检索任务中的一个核心问题就是如何学习一个通用的函数,该函数可 以很好的去评估查询和文档之间的相关性。在Ad-hoc中,查询和文档的异构性可能会带来 一些挑战,即由于上下文信息不足和文档的词项太长会增加文档理解的困难程度。相关性判 断的这些挑战在于可能存在多样相关特征,其中的多样相关特征跟异质性是相关的。
近年来,神经网络在ad-hoc检索中取得了重要的突破。比如:MatchPyramid(MP)、K-NRM、 Conv-KNRM和NNQLM-II。然而,这些模型仅仅使用了少量的相关特征或进从文档的角度考虑 了多样相关特征,并没有考虑到查询的相关特征以及查询特征和文档特征之间的交互信息。
发明内容
本发明所要解决的技术问题是克服现有技术不足而提供一种用于建模ad-hoc检索任务 中多样相关特征的信息检索模型,分别构建查询和文档的向量表示,运用Match-Transformer 模型来抓取查询或文档的依赖信息、上下文信息以及查询和文档之间的交互信息,然后运用 多层感知机去得到文档的得分和排名,并利用Learning-to-Rank去学习文档之间的相对位置 信息,并得到最优模型在测试集上预测结果,最终得到更加准确的评价结果。
本发明的目的是通过以下技术方案来实现的,包括如下步骤:
一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,包括如下步骤:
(1)根据topic构建语料集,语料集的总样本是N个topic,其中每个topic包含一个查询和一系列文档;
(2)从(1)的语料集中,随机选取80%*N个topic作为训练集和剩余的20%*N个topic 作为测试集,并分别对训练集和测试集进行预处理;
(3)对预处理之后的查询和文档构建Match-Transformer模型;
(4)将训练集查询和文档的表示输入到Match-Transformer模型,并利用多层感知机计 算文档的得分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910898272.0/2.html,转载请声明来源钻瓜专利网。