[发明专利]一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型在审
申请号: | 201910898272.0 | 申请日: | 2019-09-23 |
公开(公告)号: | CN111444414A | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 胡泽婷;张鹏;蒋永余 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/33 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 建模 ad hoc 检索 任务 多样 相关 特征 信息 模型 | ||
1.一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,包括如下步骤:
(1)根据topic构建语料集,语料集的总样本是N个topic,其中每个topic包含一个查询和一系列文档;
(2)从(1)的语料集中,随机选取80%*N个topic作为训练集和剩余的20%*N个topic作为测试集,并分别对训练集和测试集进行预处理;
(3)对预处理之后的查询和文档构建Match-Transformer模型;
(4)将训练集查询和文档的表示输入到Match-Transformer模型,并利用多层感知机计算文档的得分;
(5)通过Learning-to-Rank算法对训练后的Match-Transformer模型进行参数更新;
(6)将测试集数据输入到训练后的Match-Transformer模型中计算出每个topic的最后返回文档排名得分;
(7)将Match-Transformer模型在测试集上的评价结果输出。
2.根据权利要求1所述的一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,所述步骤(3)中Match-Transformer模型构建方法,包括如下步骤:
3.1运用glove工具得到每个文本中单词的300维词向量,模型初始化阶段用均匀分布初始化该参数矩阵,并在模型训练过程中更新优化;且对文本中每个查询和文档中单词的词向量,分别对应WiQ和WjD;其中,查询有n个单词,文档有m个单词,即i=1,…,n;j=1,…,m。
3.2判断查询中的词向量WiQ是否在文档TD中出现构建如下Overlap Embedding函数;
3.3结合前面两步操作,即可得到查询和文档的全局信息(词向量)和局部信息(传统的信息检索特征),即:
其中,表示查询中第i个单词的tf值以及表示文档中第j个词的tf-idf值;
3.4鉴于上面的步骤并没有考虑查询词之间和文档词之间的依赖信息,将查询和文档的信息分别用一个密度算子来表示,即:
3.根据权利要求2所述的一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,所述步骤3.4中为了进一步得到查询和文档之间的匹配特征信息,即:
其中,
headi=σ(PWiP,KWiK,VWiV)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910898272.0/1.html,转载请声明来源钻瓜专利网。