[发明专利]基于加权模式挖掘的印尼-英跨语言译后前件扩展方法在审
申请号: | 201811416833.0 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109543196A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06F16/33 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于加权模式挖掘的印尼‑英跨语言译后前件扩展方法,首先将印尼语查询机器翻译为英文并检索英文文档,构建用户相关文档集,再将项集权值和频度与用户相关文档集的特征词总权值和文档总数融合,挖掘特征词频繁项集,通过项权值排序对特征词候选项集进行剪枝,最后采用置信度‑相关系数评价框架从特征词频繁项集中挖掘特征词关联规则,将后件是原查询词项的关联规则前件作为译后英文扩展词,实现印尼‑英跨语言译后前件扩展。本发明克服现有加权关联规则挖掘技术的缺陷,能挖掘出与原查询相关的查询译后扩展词,实现印尼‑英跨语言译后前件扩展,提高和改善跨印尼‑英跨语言文本信息检索性能,具有较好的应用价值和推广前景。 | ||
搜索关键词: | 特征词 前件 挖掘 关联规则 加权模式 文档集 语言 查询 英文 加权关联规则 机器翻译 频繁项集 信息检索 语言文本 频度 查询词 候选项 印尼语 置信度 剪枝 构建 文档 排序 检索 融合 应用 | ||
【主权项】:
1.基于加权模式挖掘的印尼‑英跨语言译后前件扩展方法,其特征在于,包括下列步骤:步骤1:首先将印尼语查询通过机器翻译为英文并检索英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建用户相关反馈文档集;对所述用户相关反馈文档集进行预处理,构建英文文档索引库和特征词库;所述预处理方法为去除英文停用词,通过词干提取得到特征词,计算特征词权值;最后构建英文文档索引库和特征词库;步骤2:构建项权值排序项集,对所述项集进行剪枝,结合译后原查询词项,对用户相关反馈文档集挖掘含有原查询词项的特征词频繁项集,得到特征词频繁项集集合;步骤3:采用置信度‑相关系数评价框架从步骤2所得的特征词频繁项集集合中挖掘那些后件是译后原查询词项的特征词加权关联规则,得到特征词加权关联规则模式集合;步骤4:从步骤3所得特征词加权关联规则模式集合中提取规则前件作为前件扩展词,计算所述前件扩展词权值;步骤5:将所述前件扩展词与译后原查询词组合为新译后查询再次检索英文文档,完成印尼‑英跨语言译后前件扩展。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811416833.0/,转载请声明来源钻瓜专利网。