[发明专利]基于完全加权规则后件的中英跨语言查询译后扩展方法有效

专利信息
申请号: 201711433112.6 申请日: 2017-12-26
公开(公告)号: CN108170778B 公开(公告)日: 2021-09-10
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F16/2452 分类号: G06F16/2452
代理公司: 广西南宁公平知识产权代理有限公司 45104 代理人: 黄春莲
地址: 530000 广西壮族*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 完全 加权 规则 中英跨 语言 查询 扩展 方法
【说明书】:

发明公开了基于完全加权规则后件的中英跨语言查询译后扩展方法,首先进行中英跨语言初次检索,提取初检前列英文文档经用户相关性判断构建初检相关文档集并预处理后采用融合项集权值和频度的完全加权项集支持度计算方法对初检相关文档集挖掘含有译后原查询词项的完全加权频繁项集,采用基于完全加权置信度‑兴趣度评价框架对完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,提取规则后件作为中英跨语言译后扩展词,译后扩展词与译后原查询词组合为新查询再次检索英文文档。本发明方法能提高和改善跨语言信息检索性能,减少跨语言信息检索中查询主题严重漂移和词不匹配等问题,具有较高的应用价值和广阔的应用前景。

技术领域

本发明属于信息检索领域,具体是一种基于完全加权规则后件的中英跨语言查询译后扩展方法。

背景技术

跨语言信息检索指的是借助机器翻译以一种语言的查询式检索其他语言信息资源的技术。其表达用户查询的语言称为源语言,被检索的文档所用的语言称为目标语言。跨语言信息检索受查询翻译质量和同义词、多义词等的影响,常常导致查询主题严重漂移,词不匹配以及查询项翻译歧义和多义性等等问题。跨语言查询扩展是解决上述问题的关键技术之一。跨语言查询扩展指的是在跨语言信息检索过程中,添加与原查询相关的语词,和原查询重新构建新查询再次检索的过程。按照其扩展发生在检索过程的不同阶段,分为译前查询扩展、译后查询扩展和混合式查询扩展(即同时发生在译前与译后的查询扩展)三种。研究表明,跨语言查询扩展是提高跨语言信息检索性能的核心技术之一。随着跨语言信息检索研究的兴起,跨语言查询扩展越来越受到国内外学者专家的关注和讨论,成为一个研究热点。多年来,各国学者从不同角度和方向对跨语言查询扩展进行深入研究和讨论,取得了丰富的理论成果,但还没有最终完全解决跨语言信息检索中查全率和查准率问题。

发明内容

针对上述现有技术存在的问题,本发明提出一种基于完全加权规则后件的中英跨语言查询译后扩展方法,该方法能提高和改善跨语言检索性能,解决跨语言信息检索中查询主题漂移和词不匹配问题,适用于跨语言信息检索领域,还能应用于跨语言搜索引擎,提高搜索引擎检索性能。

本发明采用技术方案如下:

基于完全加权规则后件的中英跨语言查询译后扩展方法,首先利用机器翻译工具进行中英跨语言初次检索,提取初检前列英文文档经用户相关性判断构建初检相关文档集,对初检相关文档集进行预处理,构建初检英文文档库和特征词库;采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集得到完全加权频繁项集集合;然后,采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,构建英文特征词关联规则库,从所述英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词,所述译后扩展词与译后原查询词组合为新查询再次检索英文文档。

所述中英跨语言初次检索为先利用机器翻译工具将中文用户查询翻译为英文查询,采用向量空间检索模型将所述英文查询检索英文文档集得到初检英文文档。

所述对初检相关文档集进行预处理的方法为将初检英文相关文档集去除英文停用词,采用Porter程序提取英文特征词并按如下式(1)计算特征词权值,构建初检英文文档库和特征词库;

式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,lg表示对数函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711433112.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top