[发明专利]基于完全加权正负模式的跨语言查询译后后件扩展方法有效
申请号: | 201710807543.8 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107526839B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/953;G06F17/28;G06F17/27 |
代理公司: | 广西南宁明智专利商标代理有限责任公司 45106 | 代理人: | 黎明天 |
地址: | 530003 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于完全加权正负模式的跨语言查询译后后件扩展方法,首先将源语言查询翻译为目标语言查询在目标语言文档进行检索,提取前列初检文档经用户相关判断后构建初检相关文档集;再采用面向跨语言查询扩展的基于支持度‑关联度‑提升度‑置信度评价框架的正负关联模式挖掘技术对初检相关文档集挖掘含有查询词项的特征词正负关联规则模式,构建特征词正负关联规则库;从库中提取其规则前件是查询词项的完全加权正负关联规则模式,将正关联规则后件特征词作候选扩展词,负关联规则后件作负扩展词,候选扩展词中去除负扩展词后得到最终后件扩展词实现跨语言查询译后后件扩展。本发明能提高和改善跨语言信息检索性能,有较好的应用价值和推广前景。 | ||
搜索关键词: | 基于 完全 加权 正负 模式 语言 查询 译后后件 扩展 方法 | ||
【主权项】:
1.一种基于完全加权正负模式的跨语言查询译后后件扩展方法,其特征在于包括如下步骤:1.1源语言用户查询通过机器翻译工具翻译为目标语言查询;1.2目标语言查询在目标语言原始文档集中检索得到目标语言初检文档;1.3提取前列n篇目标语言初检文档进行相关性判断得到目标语言初检相关文档集;1.4对目标语言初检相关文档集挖掘含有原查询词项的完全加权频繁项集和负项集;具体步骤:1.4.1对目标语言初检相关文档集进行预处理,构建文档索引库和总特征词库;1.4.2挖掘频繁1_项集L1:即从总的特征词库得到特征词候选1_项集C1,计算1_项集C1的支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则候选1_项集C1为频繁1_项集L1,并将L1添加到完全加权频繁项集集合PIS;所述的awSup(C1)计算公式如下:
其中,n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和,
为C1在目标语言初检相关文档集中出现的频度,
为C1在目标语言初检相关文档集中的项集权值,λ∈(0,1)为调节系数,其值不能取0或1;1.4.3挖掘含有查询词项的频繁k_项集Lk和负k_项集Nk,所述的k≥2具体步骤:(1)挖掘候选k_项集Ck:通过频繁(k‑1)_项集Lk‑1进行Aproiri连接而得到;(2)当k=2时,剪除不含查询词项的候选2_项集C2,保留含有查询词项的候选2_项集C2;(3)计算候选k_项集Ck的支持度awSup(Ck):如果awSup(Ck)≥支持度阈值ms,再计算Ck的完全加权频繁项集关联度awPIR(Ck),若awPIR(Ck)≥频繁项集关联度阈值minPR,则k_候选项集Ck为完全加权频繁k_项集Lk,添加到完全加权频繁项集集合PIS;若awSup(Ck)<ms,则计算完全加权负项集关联度awNIR(Ck),如果awNIR(Ck)≥负项集关联度阈值minNR,那么,Ck为完全加权负k_项集Nk,并添加到完全加权负项集集合NIS;所述的awSup(Ck)计算公式如下:
其中,
为Ck在目标语言初检相关文档集中出现的频度,
为Ck在目标语言初检相关文档集中的项集权值,k为Ck的项目个数;所述的awPIR(Ck)计算公式如下:![]()
其中,候选加权正项集Ck=(t1,t2,…,tm),m≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m‑1)_子项集中其支持度最大的子项集;所述的awNIR(Ck)计算公式如下:![]()
其中,候选加权负项集Ck=(t1,t2,…,tr),r≥2,tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r‑1)_子项集中其支持度最大的子项集;(4)若k_项集Lk为空集,则项集挖掘结束,转到步骤1.5,否则,转到步骤(1),继续挖掘;1.5从完全加权频繁项集集合PIS中挖掘完全加权强正关联规则:对于特征词完全加权频繁项集集合PIS中每一个频繁k_项集Lk,所述的k≥2,挖掘Lk中前件是查询词项集qt而后件是扩展词项集I的关联规则qt→I,所述的qt和I的并集为Lk,qt和I的交集为空集,qt为查询词项集,I为扩展词项集,具体挖掘步骤如下:(1)求出正项集Lk的所有真子集,得到Lk真子集项集集合;(2)从Lk真子集集合中任意取出两个子项集qt和I,且
qt∪I=Lk,
(3)计算完全加权关联规则qt→I置信度awARConf(qt→I)及其提升度awARL(qt→I);若awARL(qt→I)>1,且awARConf(qt→I)>=mc,则得到完全加权强关联规则qt→I,并加入到完全加权强正关联规则集合PAR;所述的awARConf(qt→I)和awARL(qt→I)计算公式如下:![]()
(4)返回步骤(2)再顺序进行,直到Lk真子集项集集合中每个真子集当且仅当被取出一次,然后从PIS集合中重新取出新的正项集Lk,转入步骤(1)进行新一轮加权关联规则挖掘,直到PIS中每一个正项集Lk都已经被取出为止,这时转入步骤1.6;1.6从负项集集合NIS中挖掘完全加权强负关联规则:对于负项集集合NIS中每一个负项集Nk,k>=2,挖掘Nk中前件是查询词项集qt而后件是负扩展词项集I的完全加权负关联规则
和
所述的qt和I的并集为Lk,qt和I的交集为空集,具体挖掘步骤如下:(1)找出负项集Nk的所有真子集,得到Nk真子集集合;(2)从Nk真子集集合中任意取出两个子项集qt和I,且
qt∪I=Nk,
其中qt为查询项集;(3)计算提升度awARL(qt→I),若awARL(qt→I)<1,计算负关联规则
置信度![]()
若
则得到完全加权强负关联规则
并加入到完全加权强负关联规则集合NAR;计算负关联规则
置信度
若
则得到完全加权强负关联规则
并加入到NAR;所述的
和
计算公式如下:![]()
(4)返回步骤(2)再顺序执行,直到Nk真子集集合中每个真子集当且仅当被取出一次为止,这时转入步骤(5);(5)从NIS集合中重新取出新的负项集Nk,转入步骤(1)进行新一轮完全加权负关联规则挖掘,如果NIS集合中每个负项集都当且仅当已经被取出一次,则完全加权强负关联规则挖掘结束,转入步骤1.7;1.7从完全加权强正关联规则集合PAR中提取其规则前件是查询词项的完全加权正关联规则模式qt→I,将该正关联规则后件特征词作为候选扩展词,构建候选后件扩展词库;1.8从完全加权强负关联规则集合NAR中提取其规则前件是查询词项的完全加权负关联规则模式
和
将负关联规则后件I作为后件负扩展词,构建后件负扩展词库;1.9将候选后件扩展词库中的候选后件扩展词和后件负扩展词库的负扩展词比较,在候选后件扩展词库中删除与负扩展词相同的候选扩展词,候选后件扩展词库中余下的候选后件扩展词即为最终后件扩展词;2.0最终后件扩展词与目标语言原查询词组合为新查询再次检索,实现跨语言查询译后后件扩展。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710807543.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种空气净化滤芯
- 下一篇:文件系统快照查询方法、装置及计算机可读存储介质