[发明专利]一种面向事件的查询扩展方法无效
申请号: | 201010186197.4 | 申请日: | 2010-05-26 |
公开(公告)号: | CN101853298A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 仲兆满;刘宗田;周文 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 事件 查询 扩展 方法 | ||
技术领域
本发明属于语言文字信息处理领域,具体地说是涉及一种面向事件的查询扩展方法。
背景技术
在信息检索领域,查询扩展指在原查询词的基础上加入相关的词,从而组成新的、更准确的查询词集,这在一定程度上能够弥补用户查询信息不足的缺陷,也有助于改善检索的查全率和查准率。查询扩展方法大致分为两类:基于语义知识辞典的查询扩展方法和基于语料库的查询扩展方法。基于语义知识辞典的查询扩展方法是:在进行查询扩展时通过已有的语义知识辞典来进行扩展词的选取。基于语料库的查询扩展方法又可细分为两种:全局分析方法和局部分析方法。最常用的局部分析技术是伪相关反馈PRF(Pseudo Relevance Feedback):假设初始检索结果的前面若干篇文档是相关的,然后利用相关反馈过程进行查询扩展,例如,参考文献的题目为:New retrieval approaches using SMART(该文作者是:C.Buckley,A.Singhal,M.Mitra,and G.Slaton,发表于1995年出版的期刊:Proceedings of the 4th TextRetrieval Conference),该文公开了使用词在文本集中出现的频次作为查询扩展的对象,但是,没有考虑文本中的词与查询项之间的关联信息,会导致查询扩展效果不稳定。在2000年美国出版的期刊《ACM Transactions on information systems》中,题目为:Improving theeffectiveness of informational retrieval with local context analysis(该文作者是:J.Xu,B.W.Croft),该文提出了一种基于局部上下文分析LCA(Local Context Analysis)的查询扩展方法,此方法依据文本集中词与整个查询项的共现信息进行扩展,与伪相关反馈PRF相比取得了更好的查询效果,但没有考虑到面向事件的信息检索的特点,并不适用于事件类信息检索。然而,随着各类突发事件的频繁发生,获取网络上事件类的信息已经变得非常迫切。在很多情况下,用户借助搜索引擎获取事件类信息,但是,已有的信息查询方法没有分析查询内容中不同的查询项的作用,没能使用面向事件的查询扩展技术,因此,对一些事件类信息的检索结果的准确率不高,不能满足实际应用的需求。
事件类信息的查询和其他信息的查询有许多不同之处,主要表现在:
(1)、事件是由事件触发词标识,关联了参与者、时间和地点等要素的概念。事件的各个要素在查询内容中作用是不同的。比如,输入:“汶川地震”、“孟买 恐怖袭击”、“中国SARS”等查询内容。这些查询内容中的“地震”、“恐怖袭击”、“SARS”是事件触发词,其标识所要查询的事件类型称为事件项。“汶川”、“孟买”、“中国”是事件的其它要素,其限定查询事件的范围称为事件的限定项。由于事件项和限定项在查询内容中的作用不同,所以采取不同的处理策略。
(2)事件之间有着紧密的联系,一个话题总是关联了一些特定的事件。提及话题“地震”,人们自然的就联想到“死亡”、“救援”、“重建”等事件;看到话题“竞选”,“演讲”、“辩论”、“投票”等事件自然浮现到脑海中,而不需要关心具体的事件要素。据此,可以进行事件到事件之间的联想扩展。
发明内容
鉴于以上所述现有技术存在的问题和不足,本发明要解决的技术问题是提供一种面向事件的查询扩展方法,该方法通过分析查询内容中不同的查询项的作用,能提高事件类信息查询的准确率。
为了解决上述问题,本发明采用下述技术方案:
一种面向事件的查询扩展方法,其具体步骤如下:
(1)、输入查询内容,对查询内容进行分词、滤除停用词后得到查询项Q,计算查询项Q在待检索的文本集合M中的每篇文本中出现的频次mi,按照mi的大小降序排列文本集合M中的文本,选取前面的排序小于或等于n的文本组成局部文本集合N;
(2)、依据从文本中识别事件的规则,从局部文本集合N中识别得到所有的事件,由上述所有事件组成的集合称为事件集合E;
(3)、分别从查询项中区分事件项Qe和限定项Qe′;
(4)、根据步骤(2)和步骤(3),计算查询项的事件项Qe与事件集合E中每个事件的关联强度,从事件集合E中选择关联强度大的若干个事件添加到查询项的事件项Qe中扩展,扩展后的事件项构成扩展事件项
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010186197.4/2.html,转载请声明来源钻瓜专利网。