[发明专利]一种面向事件检索的多事件成分混合反馈方法与系统在审
申请号: | 202111560808.1 | 申请日: | 2021-12-20 |
公开(公告)号: | CN113946659A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 王鹏鸣 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 黄攀 |
地址: | 330000 江西省南*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 事件 检索 多事 成分 混合 反馈 方法 系统 | ||
本发明提出一种面向事件检索的多事件成分混合反馈方法与系统,该方法包括如下步骤:步骤一,为已知事件集合中的每个已知事件构建已知事件语言模型:步骤二,查询隐藏目标事件;步骤三,根据查询确认得到的隐藏目标事件,对用户的初始查询模型进行更新以得到改进后的新查询模型;步骤四,根据改进后的新查询模型重新进行检索,通过新查询模型与文档模型之间的KL‑散度对应的分值来确定得到更准确的检索结果。本发明提出一种面向事件检索的多事件成分混合反馈方法,不仅能够获得更好的检索性能,而且对于伪反馈参数的设定具有良好的稳定性。
技术领域
本发明涉及信息处理技术领域,特别涉及一种面向事件检索的多事件成分混合反馈方法与系统。
背景技术
在常规信息检索中,初始查询q的表述能力有限,仅根据初始查询q与文档d之间的相似度sim(q,d) 对文档进行排序,很难得到理想的检索结果(如图1中的(a)图所示)。在致力于提高无反馈信息检索的准确率的多种技术中,伪相关反馈(简称伪反馈)是最有效的那一种,并且已经在几乎所有的检索模型中都被证明是有效的。伪反馈的基本思想是假定无反馈检索结果中固定数量的排名靠前文档是相关的,并通过在这些文档上进行学习来获得改进后的查询表述q',然后根据查询表格q'与文档d之间的相似度sim(q',d) 对文档进行排序,从而提高检索的准确率,如图1中的(b)图所示。
随着知识库规模越来越庞大,对静态信息的检索有逐步减少的趋势,取而代之的是越来越成为主流的事件检索。然而,在事件检索任务中,使用常规的伪反馈方法通常被证明效果不佳。具体的,事件检索是一种特殊的信息检索任务,如图2所示。事件检索与常规检索的主要区别在于:用户希望得到的检索结果并不是具有较大sim(q',d) (改进后查询q’与文档d之间的相似度)的文档,而是具有较大sim(e,d) (事件e与文档d之间的相似度)的文档,即检索出的文档描述的应该是目标事件的相关内容。直觉上,一般认为在事件检索任务的初始查询背后隐藏着一个目标事件,而使用常规的伪相关反馈可能会造成查询与隐藏事件的偏离。
例如,给定一个事件检索查询“昆士兰洪水”,若有这样一篇财经文章,描述了股票和债券受到了昆士兰洪水的巨大影响,当该文档作为伪反馈文档返回时,“改进后的”查询表述中很可能会包含有“股票”,“债券”等词项,然而这些词项明显与目标事件关联很小,即产生了查询与目标事件之间的偏差。另一方面,一篇描写班达伯格和布里斯班(昆士兰州中心和南部的两个城市)的洪水的文章与目标事件是相关的,但由于缺失初始查询中的关键词“昆士兰”而很可能无法出现在检索结果中。因此在事件检索任务中,应尽可能地利用隐藏的目标事件信息。
最近提出的各种面向事件的检索模型可以被粗略地分为两大类:1)致力于改进伪相关反馈的有效性和鲁棒性。这类模型通常基于双成分的混合模型来拟合反馈文档,其中一种成分是使用文档集合估计得到的固定的背景语言模型 p(w|C) ,而另一种成分是一个未知的,需要被发掘出的主题模型 p(w|θ_F) ,此种方法在实践中证明能够有效地区分噪声与有效反馈,在此基础上还可以对双成分混合模型进行扩展,来更好地将原始查询模型与反馈文档集成,允许每篇反馈文档对估计得到的反馈主题语言模型有潜在不同的贡献。2)从对事件的特性研究着手,通过不同的方式在检索中融入事件的信息,来改进检索性能。这类模型通常会尝试从语义上理解事件,使用自然语言处理工具(语义角色标注和共指技术)将背景文档中的每个句子解析成3个元素:主语,宾语和谓语,并将它们可以被用于事件检索。在此基础上,将查询和文档都构造为事件相关的图,并利用图的质心来测量查询-文档之间的相似度。
现有的模型存在以下三个方面的缺陷:1)第一类模型并没有针对性地面向事件检索任务进行研究,事件检索任务由于具有其自身的独特性,因此在常规检索中能够获得改进的方法,在事件检索中很可能无法获得同样的效果;2)上述两类模型都很复杂,并且实现起来非常耗时;3)上述两类模型都是启发式的方法,无法在原理性的框架下进行解释。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种面向事件检索的多事件成分混合反馈方法,以解决上述背景技术中的技术问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111560808.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种5G多层LCP材料基板及其加工方法
- 下一篇:一种照明装置