[发明专利]一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型在审

专利信息
申请号: 201910898272.0 申请日: 2019-09-23
公开(公告)号: CN111444414A 公开(公告)日: 2020-07-24
发明(设计)人: 胡泽婷;张鹏;蒋永余 申请(专利权)人: 天津大学
主分类号: G06F16/953 分类号: G06F16/953;G06F16/33
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 韩帅
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 建模 ad hoc 检索 任务 多样 相关 特征 信息 模型
【权利要求书】:

1.一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,包括如下步骤:

(1)根据topic构建语料集,语料集的总样本是N个topic,其中每个topic包含一个查询和一系列文档;

(2)从(1)的语料集中,随机选取80%*N个topic作为训练集和剩余的20%*N个topic作为测试集,并分别对训练集和测试集进行预处理;

(3)对预处理之后的查询和文档构建Match-Transformer模型;

(4)将训练集查询和文档的表示输入到Match-Transformer模型,并利用多层感知机计算文档的得分;

(5)通过Learning-to-Rank算法对训练后的Match-Transformer模型进行参数更新;

(6)将测试集数据输入到训练后的Match-Transformer模型中计算出每个topic的最后返回文档排名得分;

(7)将Match-Transformer模型在测试集上的评价结果输出。

2.根据权利要求1所述的一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,所述步骤(3)中Match-Transformer模型构建方法,包括如下步骤:

3.1运用glove工具得到每个文本中单词的300维词向量,模型初始化阶段用均匀分布初始化该参数矩阵,并在模型训练过程中更新优化;且对文本中每个查询和文档中单词的词向量,分别对应WiQ和WjD;其中,查询有n个单词,文档有m个单词,即i=1,…,n;j=1,…,m。

3.2判断查询中的词向量WiQ是否在文档TD中出现构建如下Overlap Embedding函数;

3.3结合前面两步操作,即可得到查询和文档的全局信息(词向量)和局部信息(传统的信息检索特征),即:

其中,表示查询中第i个单词的tf值以及表示文档中第j个词的tf-idf值;

3.4鉴于上面的步骤并没有考虑查询词之间和文档词之间的依赖信息,将查询和文档的信息分别用一个密度算子来表示,即:

3.根据权利要求2所述的一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型,其特征在于,所述步骤3.4中为了进一步得到查询和文档之间的匹配特征信息,即:

其中,

headi=σ(PWiP,KWiK,VWiV)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910898272.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top