[发明专利]基于完全加权正负模式的跨语言查询译后后件扩展方法有效
申请号: | 201710807543.8 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107526839B | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/953;G06F17/28;G06F17/27 |
代理公司: | 广西南宁明智专利商标代理有限责任公司 45106 | 代理人: | 黎明天 |
地址: | 530003 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 完全 加权 正负 模式 语言 查询 译后后件 扩展 方法 | ||
技术领域
本发明属于互联网信息检索领域,具体是一种基于完全加权正负模式的跨语言查询译后后件扩展方法,适合于跨语言信息检索查询扩展等领域。
背景技术
跨语言信息检索(Cross-Language Information Retrieval,CLIR)于20世纪90年代末期开始得到重视和关注。如今我们正处于一个多语言网络时代,语言多样化的互联网资源已经成为大数据信息资源,急需性能良好的跨语言检索工具,因此,跨语言信息检索成为了信息检索领域迫切研究的技术。
跨语言信息检索指的是以一种语言的查询式检索其他语言信息资源的技术,其表达用户查询的语言称为源语言(Source Language),被检索的文档所用的语言称为目标语言(Target Language)。跨语言查询扩展技术是一种能改善和提高跨语言检索性能的核心技术之一,其旨在解决跨语言信息检索领域长期困扰的、严重的查询主题漂移和词不匹配等问题。跨语言查询扩展按照其扩展发生在检索过程的不同阶段,分为译前查询扩展、译后查询扩展和混合式查询扩展(即同时发生在译前与译后的查询扩展)三种。随着跨语言信息检索研究的兴起,跨语言查询扩展越来越受到国内外学者的关注和讨论,成为一个研究热点。
跨语言信息检索是信息检索与机器翻译结合的技术,比单语言检索更为复杂,面临的问题比单语言检索更为严重。这些问题一直是制约跨语言信息检索技术发展的瓶颈,也是当前国际上急需解决的跨语言信息检索中普遍存在的难题,主要表现为:查询主题严重漂移、词不匹配以及查询项翻译歧义和多义性,等等。跨语言查询扩展是解决上述问题的核心技术之一。近10年来,跨语言查询扩展模型与算法得到了广泛关注和深入研究,取得了丰富的理论成果,但还没有最终完全解决上述问题。鉴于此,本发明了一种基于完全加权正负模式的跨语言查询译后后件扩展方法。实验结果表明,本文算法适用于跨语言信息检索领域,能有效地减少跨语言信息检索中长期存在的查询主题漂移和词不匹配问题,提高和改善跨语言检索性能,具有重要的应用价值和广阔的推广前景。
发明内容
本发明将完全加权正负关联模式挖掘应用于跨语言查询译后扩展,提出了一种基于完全加权正负模式的跨语言查询译后后件扩展方法,应用于跨语言信息检索领域,能解决跨语言信息检索中长期存在的查询主题漂移和词不匹配问题,提高跨语言信息检索性能,也可以应用于跨语言搜索引擎,提高搜索引擎的查全率和查准率等检索性能。
本发明采取的技术方案是:
1.一种基于完全加权正负模式的跨语言查询译后后件扩展方法,其特征在于包括如下步骤:
1.1源语言用户查询通过机器翻译工具翻译为目标语言查询;
1.2目标语言查询在目标语言原始文档集中检索得到目标语言初检文档;
1.3提取前列n篇目标语言初检文档进行相关性判断得到目标语言初检相关文档集;
1.4对目标语言初检相关文档集挖掘含有原查询词项的完全加权频繁项集和负项集;
具体步骤:
1.4.1对目标语言初检相关文档集进行预处理,构建文档索引库和总特征词库;
1.4.2挖掘频繁1_项集L1:
即从总的特征词库得到特征词候选1_项集C1,计算1_项集C1的支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则候选1_项集C1为频繁1_项集L1,并将L1添加到完全加权频繁项集集合PIS;所述的awSup(C1)计算公式如式(1)所示。
其中,n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和,为C1在目标语言初检相关文档集中出现的频度,为C1在目标语言初检相关文档集中的项集权值,λ∈(0,1)为调节系数,其值不能取0或1;
1.4.3挖掘含有查询词项的频繁k_项集Lk和负k_项集Nk,所述的k≥2
具体步骤:
(1)挖掘候选k_项集Ck:通过频繁(k-1)_项集Lk-1进行Aproiri连接而得到;
(2)当k=2时,剪除不含查询词项的候选2_项集C2,保留含有查询词项的候选2_项集C2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710807543.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空气净化滤芯
- 下一篇:文件系统快照查询方法、装置及计算机可读存储介质