[发明专利]一种根据维基百科中话题信息使查询词项多样化的方法有效
申请号: | 201310356319.3 | 申请日: | 2013-08-15 |
公开(公告)号: | CN103455564B | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 胡昊;张明西;汪卫;王鹏;何震瀛 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明属于关系数据库技术领域,具体为一种根据维基百科中话题信息使查询词项多样化的方法。该方法的步骤为:给定目标查询词t0,候选扩展集T,维基百科中的话题信息C和页面信息D(C),相似性函数sim1、sim2,整数k和实数 |
||
搜索关键词: | 一种 根据 百科 话题 信息 查询 多样化 方法 | ||
【主权项】:
1.一种根据维基百科中分类信息使查询词项多样化的方法,其特征在于具体步骤如下:(1)对于候选扩展集T中的每一个词项tx∈T,设维基百科中的相关话题信息C={c1,c2,...,cn}由n个话题组成,根据话题对应方法,为每个词项tx生成话题分布ζ(tx),该分布的概率质量函数记为P{C=ci|tx}=P(ci|tx);(2)以步骤(1)求出的|T|个分布,根据相关性函数sim1、sim2和参数λ,λ∈[0,1],利用已知的MMR算法找出多样化此项扩展集合Sk,使得|Sk|=k,且Sk中的k个词项既与目标查询词t0相似,又尽可能在话题信息上呈现多样性;其中,MMR算法每一步优化的目标为:
(3)步骤(2)中的sim1(t0,ti)为任意已知求解词项相似性的度量方法;对于sim2(tx,ti),计算时首先求出tx和ti在所有分类信息上的分布ζ(tx)和ζ(ti),然后采用cosine距离来计算相似度,即sim2(tx,ti)=cos(ζ(tx),ζ(ti));步骤(1)中所述话题对应方法的步骤如下:(a)选择与t0在分类信息上首次出现的分类c,令C={c1,c2,...,cn}为所有c的子分类;(b)对于分布ζ(tx),其概率质量函数P(ci|tx)按照如下方法计算:
其中词项tx的概率P(tx)在分布的各个分量中都相等,不会影响ζ(tx),因此忽略不计算P(tx);词项tx在给定分类信息ci上的概率P(tx|ci)是维基百科中的先验概率,它与查询所在的数据库无关;分类信息ci的概率P(ci)则为ci在数据库上的概率;步骤(b)中所述P(tx|ci)和P(ci)的计算方法如下:(b1)词项tx在给定分类信息ci上的概率P(tx|ci)分为分类短语相关概率Pph(tx|ci)和统计相关概率Pst(tx|ci),P(tx|ci)计算式为:P(tx|ci)=αPph(tx|ci)+(1‑α)Pst(tx|ci)其中,α是调整分类短语相关概率和统计相关概率的权重参数,取值范围为0≤α≤1;(b2)步骤(b1)中Pph(tx|ci)计算式为:
其中当词项tx在分类系信息ci中出现时,
否则
Pph(tx|ci)为P(tx|ci)的分类短语相关概率;(b3)步骤(b1)中Pst(tx|ci)即词项tx在文档集D(ci)中的TF‑IDF值,其中文档集D(ci)是维基百科中分类信息ci下的所有解释页面;(b4)P(ci)的计算式为:
其中p=2,Num_of_terms(ci)为分类信息ci中词项的个数;(b5)步骤(b4)中Imp(tj)=PR(tj)×IDF(tj),其中PR(tj)为词项tj在数据库中的PageRank值,计算时,先按照数据库的模式将数据改写成图数据,然后按照PageRank的方法进行计算;IDF(tj)为词项tj在数据库中出现次数的倒数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310356319.3/,转载请声明来源钻瓜专利网。
- 上一篇:数字胎压计
- 下一篇:铜配线的形成方法、配线基板的制造方法以及配线基板
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置