[发明专利]基于加权模式挖掘的印尼-英跨语言译后前件扩展方法在审
申请号: | 201811416833.0 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109543196A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06F16/33 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征词 前件 挖掘 关联规则 加权模式 文档集 语言 查询 英文 加权关联规则 机器翻译 频繁项集 信息检索 语言文本 频度 查询词 候选项 印尼语 置信度 剪枝 构建 文档 排序 检索 融合 应用 | ||
本发明公开了基于加权模式挖掘的印尼‑英跨语言译后前件扩展方法,首先将印尼语查询机器翻译为英文并检索英文文档,构建用户相关文档集,再将项集权值和频度与用户相关文档集的特征词总权值和文档总数融合,挖掘特征词频繁项集,通过项权值排序对特征词候选项集进行剪枝,最后采用置信度‑相关系数评价框架从特征词频繁项集中挖掘特征词关联规则,将后件是原查询词项的关联规则前件作为译后英文扩展词,实现印尼‑英跨语言译后前件扩展。本发明克服现有加权关联规则挖掘技术的缺陷,能挖掘出与原查询相关的查询译后扩展词,实现印尼‑英跨语言译后前件扩展,提高和改善跨印尼‑英跨语言文本信息检索性能,具有较好的应用价值和推广前景。
技术领域
本发明属于信息检索领域,具体是基于加权模式挖掘的印尼-英跨语言译后前件扩展方法。
背景技术
跨语言查询扩展指的是在跨语言信息检索过程中,采用某种策略发现与原查询相关的扩展词,扩展词和原查询组合得到新查询并再次检索的过程。跨语言查询扩展是提高和改善跨语言信息检索性能的关键技术之一,能解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配等问题。根据跨语言信息检索的不同阶段,跨语言查询扩展分为查询译前扩展、查询译后扩展和混合式查询扩展等三种。查询译前扩展模型指的是在源语言查询翻译为目标语言之前,采用某些策略从其他源语言文档材料(或者初检源语言文档)中获得源语言扩展词实现译前扩展,然后进行查询翻译,再检索目标语言文档。查询译后扩展发生在源语言查询翻译为目标语言之后,从跨语言初检目标语言文档或者其他目标语言文档材料中获取目标语言扩展词实现译后扩展,然后再次检索目标语言文档。混合式查询扩展的实现要经过三次检索,即首先进行查询译前扩展得到了源语言扩展词实现译前扩展后进行跨语言检索,在此基础上再进行查询译后扩展得到目标语言扩展词,和译后的目标语言查询组合实现混合式扩展,最后再进行第三次检索。
随着网络技术的发展以及机器翻译技术的进步,跨语言查询扩展技术成为一个重要的研究热点。近十几年来,学者们围绕着上述三种跨语言查询扩展模型开展了卓有成效的研究,取得了一些研究成果,例如,闭剑婷等提出的一种基于潜在语义分析的跨语言查询扩展方法(见文献:闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-53.),吴丹等提出一种基于伪相关反馈的跨语言查询扩展方法(见文献:吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.),等等,但还没有最终完全解决跨语言信息检索中存在的技术难题。
随着中国-东盟自由贸易区建设的不断深入以及中国-东盟博览会每年的举办,世界各国与东盟印尼国家之间的交往更加密切和频繁。语言多样化成为了各国与东盟国家之间扩大经贸往来和文化交流的瓶颈和困难,消除语言障碍已经成为一个亟需解决和刻不容缓的重要问题,东盟印尼语跨语言信息检索研究显得迫切,具有重要的现实意义。当前,东盟印尼语跨语言信息检索面临的问题主要表现为查询主题严重漂移、词不匹配以及查询项翻译歧义和多义性等,这些问题也是当前国际上急需解决的跨语言信息检索中普遍存在的难题。东盟印尼语跨语言查询扩展是解决上述问题的核心技术之一。然而,当前跨语言查询扩展研究的主要语言对象是英语、汉语等大语种以及欧洲国家语言和国内的少数民族语言等等,而针对东盟小语种印尼语的跨语言查询扩展研究报道不多,同时,基于关联规则挖掘的跨语言查询扩展研究不是很深入,还存在如下一些主要问题:①还没有找到一种最优的、最普遍适用各种语言环境的支持度计算方法和关联规则评估框架来挖掘文本信息中特征词之间存在的各种复杂关联。现有研究中,项集支持度要么只考虑项集频度,要么只考虑项集权值,或者仅仅将项平均权值与无加权支持度的简单乘积作为项集支持度,等等,使得挖掘出的扩展词质量(即与原查询的相关性)有待于提高;②关联规则评估方面,经典的支持度-置信度评估框架存在难以解决的缺陷,例如,冗余的、或者虚假的关联规则多,虽然出现了一些改进的评估框架,但是,还没有最终解决跨语言检索中查询主题漂移和词不匹配问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811416833.0/2.html,转载请声明来源钻瓜专利网。