[发明专利]一种根据维基百科中话题信息使查询词项多样化的方法有效
申请号: | 201310356319.3 | 申请日: | 2013-08-15 |
公开(公告)号: | CN103455564B | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 胡昊;张明西;汪卫;王鹏;何震瀛 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 根据 百科 话题 信息 查询 多样化 方法 | ||
本发明属于关系数据库技术领域,具体为一种根据维基百科中话题信息使查询词项多样化的方法。该方法的步骤为:给定目标查询词
技术领域
本发明属于关系数据库技术领域,具体涉及一种根据维基百科中话题信息使查询词项多样化的方法。
背景技术
近年来,关键字查询作为从结构化或半结构化数据中提取所需信息的方法已被广为接受。为提高查询质量,查询推荐是常用的方法。查询推荐方法在用户提交关键字进行查询时根据查询记录分析等方法推荐一些相关的关键字供用户选择。
然而,仅推荐相关的关键字是不够的,向用户推荐的这些关键字两两之间应该在话题上尽可能的不同,这样才能使关键字尽可能的覆盖更多的话题。上述过程即为查询词项的多样化。
现在已有一些将查询词项多样化的方法。但是这些方法大多数都是通过对查询记录分析,然后依据统计方法、机器学习方法等方法来对查询词项进行多样化。然而,实际应用中并不总是会有查询记录,这限制了上述方法的使用。此外,还有一些工作通过对查询数据或者查询结果的分析来进行查询词项的多样化,这与本发明提出的方法不同,本发明采用维基百科中的话题信息来对查询词项多样化。
维基百科是一个开放的百科全书,它所提供的词条和概念具有较高的覆盖率和准确率。因此,本发明依靠维基百科来进行查询词项多样化。
发明内容
本发明的目的是针对查询推荐中的查询词项同质化问题,提出一种根据维基百科中话题信息时查询词项多样化的方法,以提高查询推荐在话题上的覆盖率,提升用户体验。
本发明提出的查询词项多样化的方法,利用维基百科中的话题信息,结合候选扩展集和数据库中的统计信息,通过MMR方法,对候选扩展集中的词项进行重新选择,使得选出的k个词项既与给定的目标查询词t0相似,又互相在话题上呈现多样性。
首先对一些基本概念进行定义:
定义1.维基百科中的分类信息:维基百科中的分类信息包括一个分类层次c和实体集合ε,每个c∈c都是一个分类,每个e∈ε都是一个实体。若实体e是一个分类c的实例,则记作e∈c。
本发明中,我们认为每个分类或实体都代表一个相应的话题。
定义2.候选扩展集T:T中包含n个与目标查询词t0相关的词。查询词项多样性的方法是从T中选出k个词。
计算时,候选扩展集可以是任意查询推荐方法给出的推荐词的集合。这样的设置保证了本方法的兼容性。对于给定的查询推荐方法,我们采用siml(t0,t)来表示t和t0的相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310356319.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数字胎压计
- 下一篇:铜配线的形成方法、配线基板的制造方法以及配线基板
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置