[发明专利]一种根据维基百科中话题信息使查询词项多样化的方法有效

专利信息
申请号: 201310356319.3 申请日: 2013-08-15
公开(公告)号: CN103455564B 公开(公告)日: 2018-11-13
发明(设计)人: 胡昊;张明西;汪卫;王鹏;何震瀛 申请(专利权)人: 复旦大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海正旦专利代理有限公司 31200 代理人: 陆飞;盛志范
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 根据 百科 话题 信息 查询 多样化 方法
【权利要求书】:

1.一种根据维基百科中分类信息使查询词项多样化的方法,其特征在于具体步骤如下:

(1)对于候选扩展集T中的每一个词项tx∈T,设维基百科中的相关话题信息C={c1,c2,...,cn}由n个话题组成,根据话题对应方法,为每个词项tx生成话题分布ζ(tx),该分布的概率质量函数记为P{C=ci|tx}=P(ci|tx);

(2)以步骤(1)求出的|T|个分布,根据相关性函数sim1、sim2和参数λ,λ∈[0,1],利用已知的MMR算法找出多样化此项扩展集合Sk,使得|Sk|=k,且Sk中的k个词项既与目标查询词t0相似,又尽可能在话题信息上呈现多样性;其中,MMR算法每一步优化的目标为:

(3)步骤(2)中的sim1(t0,ti)为任意已知求解词项相似性的度量方法;对于sim2(tx,ti),计算时首先求出tx和ti在所有分类信息上的分布ζ(tx)和ζ(ti),然后采用cosine距离来计算相似度,即sim2(tx,ti)=cos(ζ(tx),ζ(ti));

步骤(1)中所述话题对应方法的步骤如下:

(a)选择与t0在分类信息上首次出现的分类c,令C={c1,c2,...,cn}为所有c的子分类;

(b)对于分布ζ(tx),其概率质量函数P(ci|tx)按照如下方法计算:

其中词项tx的概率P(tx)在分布的各个分量中都相等,不会影响ζ(tx),因此忽略不计算P(tx);词项tx在给定分类信息ci上的概率P(tx|ci)是维基百科中的先验概率,它与查询所在的数据库无关;分类信息ci的概率P(ci)则为ci在数据库上的概率;

步骤(b)中所述P(tx|ci)和P(ci)的计算方法如下:

(b1)词项tx在给定分类信息ci上的概率P(tx|ci)分为分类短语相关概率Pph(tx|ci)和统计相关概率Pst(tx|ci),P(tx|ci)计算式为:

P(tx|ci)=αPph(tx|ci)+(1-α)Pst(tx|ci)

其中,α是调整分类短语相关概率和统计相关概率的权重参数,取值范围为0≤α≤1;

(b2)步骤(b1)中Pph(tx|ci)计算式为:

其中当词项tx在分类系信息ci中出现时,否则

Pph(tx|ci)为P(tx|ci)的分类短语相关概率;

(b3)步骤(b1)中Pst(tx|ci)即词项tx在文档集D(ci)中的TF-IDF值,其中文档集D(ci)是维基百科中分类信息ci下的所有解释页面;

(b4)P(ci)的计算式为:其中p=2,Num_of_terms(ci)为分类信息ci中词项的个数;

(b5)步骤(b4)中Imp(tj)=PR(tj)×IDF(tj),其中PR(tj)为词项tj在数据库中的PageRank值,计算时,先按照数据库的模式将数据改写成图数据,然后按照PageRank的方法进行计算;IDF(tj)为词项tj在数据库中出现次数的倒数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310356319.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top