[发明专利]一种根据维基百科中话题信息使查询词项多样化的方法有效

专利信息
申请号: 201310356319.3 申请日: 2013-08-15
公开(公告)号: CN103455564B 公开(公告)日: 2018-11-13
发明(设计)人: 胡昊;张明西;汪卫;王鹏;何震瀛 申请(专利权)人: 复旦大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;盛志范
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 根据 百科 话题 信息 查询 多样化 方法
【说明书】:

发明属于关系数据库技术领域,具体为一种根据维基百科中话题信息使查询词项多样化的方法。该方法的步骤为:给定目标查询词t0,候选扩展集T,维基百科中的话题信息C和页面信息D(C),相似性函数sim1sim2,整数k和实数(),通过贪心方法,在每一轮迭代中寻找当前与目标查询词t0既相似又同时具有最大的话题多样性的词项,直至k个词项都被找到。本发明在扩展查询此项时引入了外部的维基百科分类信息,从而使扩展的多样性得以更高。

技术领域

本发明属于关系数据库技术领域,具体涉及一种根据维基百科中话题信息使查询词项多样化的方法。

背景技术

近年来,关键字查询作为从结构化或半结构化数据中提取所需信息的方法已被广为接受。为提高查询质量,查询推荐是常用的方法。查询推荐方法在用户提交关键字进行查询时根据查询记录分析等方法推荐一些相关的关键字供用户选择。

然而,仅推荐相关的关键字是不够的,向用户推荐的这些关键字两两之间应该在话题上尽可能的不同,这样才能使关键字尽可能的覆盖更多的话题。上述过程即为查询词项的多样化。

现在已有一些将查询词项多样化的方法。但是这些方法大多数都是通过对查询记录分析,然后依据统计方法、机器学习方法等方法来对查询词项进行多样化。然而,实际应用中并不总是会有查询记录,这限制了上述方法的使用。此外,还有一些工作通过对查询数据或者查询结果的分析来进行查询词项的多样化,这与本发明提出的方法不同,本发明采用维基百科中的话题信息来对查询词项多样化。

维基百科是一个开放的百科全书,它所提供的词条和概念具有较高的覆盖率和准确率。因此,本发明依靠维基百科来进行查询词项多样化。

发明内容

本发明的目的是针对查询推荐中的查询词项同质化问题,提出一种根据维基百科中话题信息时查询词项多样化的方法,以提高查询推荐在话题上的覆盖率,提升用户体验。

本发明提出的查询词项多样化的方法,利用维基百科中的话题信息,结合候选扩展集和数据库中的统计信息,通过MMR方法,对候选扩展集中的词项进行重新选择,使得选出的k个词项既与给定的目标查询词t0相似,又互相在话题上呈现多样性。

首先对一些基本概念进行定义:

定义1.维基百科中的分类信息:维基百科中的分类信息包括一个分类层次c和实体集合ε,每个c∈c都是一个分类,每个e∈ε都是一个实体。若实体e是一个分类c的实例,则记作e∈c。

本发明中,我们认为每个分类或实体都代表一个相应的话题。

定义2.候选扩展集T:T中包含n个与目标查询词t0相关的词。查询词项多样性的方法是从T中选出k个词。

计算时,候选扩展集可以是任意查询推荐方法给出的推荐词的集合。这样的设置保证了本方法的兼容性。对于给定的查询推荐方法,我们采用siml(t0,t)来表示t和t0的相关性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310356319.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top