[发明专利]一种全局交互与贪心选择相结合的搜索结果多样化系统有效
申请号: | 202011404003.3 | 申请日: | 2020-12-04 |
公开(公告)号: | CN112632267B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 窦志成;秦绪博 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/338;G06N3/044;G06N3/0499;G06N3/0442;G06N3/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 樊炳章;钱芸 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 全局 交互 贪心 选择 相结合 搜索 结果 多样化 系统 | ||
本发明通过人工智能领域的方法,实现了一种全局交互与贪心选择相结合的搜索结果多样化系统,系统由输入单元、面向搜索结果多样化任务的全局交互‑贪心选择算法以及输出单元组成,所述输入单元用书输入外部搜索的关键词并将其输入所述面向搜索结果多样化任务的全局交互‑贪心选择算法,并由所述输出单元用于输出搜素结果。通过上述技术方案中提出的基于自注意力网络与循环神经网络的搜索结果多样化模型,能够综合考虑文档全局交互关系,与已选文档和未选文档间的相关关系,有效地克服了传统贪心选择算法难以得到全局最优解的局限性,并可以更加精确地衡量每一个排序位置下的文档新颖性收益。
技术领域
本发明涉及智能搜索领域,尤其涉及一种全局交互与贪心选择相结合的搜索结果多样化系统。
背景技术
相关统计数据证明用户在使用搜索引擎时倾向于提交短查询,为了解决短查询所带来的歧义性问题,搜索引擎需要对搜索结果进行多样化排序。对于给定的查询和初始排序文档序列,一个多样化模型应当对文档序列进行多样化重排序,使得重排序之后排在前面位置的文档能够尽可能多地覆盖不同的用户意图。目前主流的多样化排序方法,按照如何衡量文档的多样性,可以分为隐式多样化方法和显式多样化方法:隐式多样化方法按照候选文档相对于已选中的文档是否具有新颖性,即是否与已选中的文档尽可能不相似来判定文档是否具有多样性,显式多样化方法则显式地衡量文档对不同的用户意图(通常用子话题表示)的覆盖程度,一个具有多样性的文档应该覆盖了此前已选中文档序列没有覆盖的用户意图。而按照如何拟定多样化排序函数,则可以分为启发式(非监督式)和学习式(监督式)方法,启发式方法依赖于人工提取的多样化特征与排序函数,而学习式方法则利用机器学习模型,通过训练数据自发地学习到最优化的排序函数与特征。
目前已有的显式与隐式方法都采用贪心文档选择的策略,即每一次都根据当前已选中的文档序列,计算所有候选文档的多样性得分,从中选择当前最佳的候选文档,然后将其附加到当前已选中的文档序列的末尾。由于多样化排序本质上是一个子空间搜索问题,该问题属于NP-难解问题,使用贪心选择的算法策略可以在较短地时间内完成计算,对线上排序任务有良好的适应性。此外,由于在搜索场景中,用户阅读搜索结果文档的实际行为是一个自上而下的过程,因此贪心选择算法与用户实际行为具有较好的一致性。
理论上贪心选择算法每一次选择都会导向当前的局部最优解,而通过一系列局部最优解导向全局最优解的条件是贪心选择过程满足无后效性,即每一个候选文档的选取给已选文档序列带来的新增信息收益应当是彼此相互独立的。但相关研究已经证明,候选文档之间彼此并非相互独立,当一个候选文档被选中之后,其他候选文档的新增信息收益也将随之发生改变。因此,贪心选择算法从理论上即无法获得全局最优的多样化排序。目前已有一些基于自注意力网络的多变量排序方法可以综合衡量文档间全局交互关系。但由于单纯的自注意力网络对位置信息并不敏感,因此完全基于自注意力网络的算法难以融入到贪心选择框架之中——对于多样化排序任务,贪心选择算法在衡量已选文档和候选文档间相关关系上仍然具有不可替代的价值。
针对现有技术中的问题,我们提出以下三个想法:
(1)我们使用一个基于自注意力网络(Self-Attention Network)的编码器结构,通过综合衡量所有的候选文档彼此间的相关关系,学习每一个文档的上下文相关的文档表示,捕获候选文档间的全局交互信息。
(2)我们受到集成学习中的Bagging思想的启发,引入了一个与自注意力网络并列的循环神经网络结构。由于循环神经网络具有强烈的时序性,相对于排序无关的自注意力网络,更适合于模拟贪心文档选择过程,捕获已选文档序列与候选文档间的相关关系。
(3)相对于已有的多样化排序模型,我们的模型可以综合地考量全体候选文档间彼此的全局交互关系,和已选文档序列与候选文档序列间的相关关系,可以有效地解决此前的贪心选择算法难以导向全局最优解的问题,且对缺乏标注,质量较差的数据集有更好的适应性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011404003.3/2.html,转载请声明来源钻瓜专利网。