[发明专利]一种全局交互与贪心选择相结合的搜索结果多样化系统有效
申请号: | 202011404003.3 | 申请日: | 2020-12-04 |
公开(公告)号: | CN112632267B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 窦志成;秦绪博 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/338;G06N3/044;G06N3/0499;G06N3/0442;G06N3/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 樊炳章;钱芸 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 全局 交互 贪心 选择 相结合 搜索 结果 多样化 系统 | ||
1.一种全局交互与贪心选择相结合的搜索结果多样化系统,其特征在于:系统由输入单元、面向搜索结果多样化任务的全局交互-贪心选择算法以及输出单元组成,所述输入单元用于输入用户提交的搜索查询关键词和经过初始的相关性排序,未经多样化的搜索结果,并将其输入所述面向搜索结果多样化任务的全局交互-贪心选择算法,并由所述输出单元用于输出经过多样化重排序的搜索结果;
所述面向搜索结果多样化任务的全局交互-贪心选择算法以及输出单元采用基于全局交互-贪心选择的搜索结果多样化框架,该框架通过自注意力网络与循环神经网络的并列结构,使得文档全局交互与文档选择两种特征并列地在搜索结果多样化排序中发挥效用,具体地,所述基于自注意力网络编码器的文档全局交互结构输入文档序列和子话题的向量表征,返回每一个文档和子话题的编码器生成表示向量,文档的表示向量表征文档相对于其他文档的新颖性,子话题的表示向量用于生成子话题权重;所述基于循环神经网络的贪心选择结构,输入当前已选文档序列对应的上下文向量和候选文档向量,返回候选文档的贪心选择表示向量;将所述文档表示向量、所述子话题表示向量、文档相对查询的相关性特征参数,和文档相对于子话题由文档对子话题的相关性参数生成的覆盖得分首尾相连,生成文档的全体特征向量,将该特征向量输入线性排序学习函数,生成最终的文档多样化排序评分;然后选择当前最佳的搜索结果文档,将其加入到v选文档序列中,并使用新的已选文档序列生成新的上下文向量并重新初始化文档选择组件,继续从候选文档中选择最佳文档,这一过程将不断重复,直至所有候选文档都已被选中为止。
2.如权利要求1所述的一种全局交互与贪心选择相结合的搜索结果多样化系统,其特征在于:
所述自注意力网络编码器的具体实现方式为:输入一个由文档向量组成的文档序列D,此处D={d1,...,dm},即长度为m的文档序列,共包含m个文档向量,建立缩放点积注意力函数作为自注意力网络的核心节点,表示如下:
此处Q,k,V分别为注意力函数中的查询、键、值向量,Q表示的“查询”是注意力函数内部的概念,完整的自注意力网络编码器结构,包含一个多层的自注意力网络,每一层引入多头注意力机制,即将输入的文档向量映射到h个不同的子空间中,然后利用每一个头分别捕获自注意力特征,该机制可以表示如下:
其中WH是在训练过程中学习的参数,输入矩阵D′为全体文档序列对应的文档向量组成的矩阵,在输入矩阵中引入额外的位置编码即在每一层间引入残差连接的前馈神经网络,以及Dropout机制,如下所示:
SelfAttnEnc(D)=LN(Henc+Dp(FF(Henc)))
Henc=LN(D′+Dp(MHAenc(D′)))
式中,FF表示前馈神经网络,Dp(·)表示Dropout层,LN(·)表示层归一化(LayerNormalization)操作,编码器生成全体文档序列的上下文相关表示向量,并连接成矩阵即每一个文档的表示向量都可以用作文档的新颖性特征表示。
3.如权利要求2所述的一种全局交互与贪心选择相结合的搜索结果多样化系统,其特征在于:所述子话题权重的生成方法为:对于给定的子话题序列Q={q1,...,qn},同样将其输入至编码器中,返回得到对应的子话题表征向量:
将子话题表征向量输入到一个线性模型中,使用Softmax函数即可生成子话题对应的权重。
4.如权利要求3所述的一种全局交互与贪心选择相结合的搜索结果多样化系统,其特征在于:所述循环神经网络用于解决自注意力网络缺乏对于排序位置信息的捕获能力的问题,具体实现方式为系:
每一个文档的表示都由文档自身对应的向量化表示et与已选文档序列所对应的上下文状态共同决定,文档全局交互组件生成的文档表征向量是静态的,文档选择过程将不会影响文档表征向量,而文档选择组件生成的向量则是动态的:对于每一个候选文档,当作为输入上下文的已选文档序列发生改变时,其对应的文档表征也会发生改变。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011404003.3/1.html,转载请声明来源钻瓜专利网。