[发明专利]基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法在审
申请号: | 201811649213.1 | 申请日: | 2018-12-30 |
公开(公告)号: | CN109753559A | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F17/28 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法,首先借助机器翻译工具将源语言查询翻译为目标语言并检索目标语言文档,构建目标语言初检相关文档集,再通过项集权值比较在目标语言初检相关文档集中挖掘含有原查询词项的频繁项集,采用关联度‑卡方分析‑置信度评价框架从频繁项集中挖掘那些前件是原查询词项的关联规则,提取关联规则后件作为扩展词,扩展词与原查询词组合为新查询再次检索目标语言文档,将最终检索结果目标语言文档机器翻译为源语言文档返回给用户。本发明能克服现有关联规则挖掘技术的缺陷,采用项集剪枝和关联规则后件扩展技术,提高和改善跨语言文本检索性能,具有较高的应用价值和推广前景。 | ||
搜索关键词: | 关联规则 目标语言 语言文本 挖掘 机器翻译 规则后件 检索目标 语言文档 查询词 后件 检索 关联规则挖掘 目标语言文档 源语言查询 源语言文档 检索结果 检索性能 频繁项集 词组合 关联度 文档集 新查询 置信度 剪枝 构建 前件 文档 查询 翻译 返回 应用 分析 | ||
【主权项】:
1.基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法,其特征在于,包括下列步骤:步骤1:源语言用户查询通过机器翻译工具译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档,通过对初检前列目标语言文档进行相关性判断构建目标语言初检相关文档集,预处理目标语言初检相关文档集,分别构建目标语言文本文档索引库和特征词库;步骤2:通过项集权值比较在目标语言初检相关文档集中挖掘含有原查询词项的频繁项集,采用关联度‑卡方分析‑置信度评价框架从频繁项集中挖掘那些前件是原查询词项的关联规则;具体步骤如下:(2.1)挖掘文本特征词1_频繁项集L1,具体步骤如下:(2.1.1)从特征词库中提取文本特征词作为1_候选项集C1;(2.1.2)扫描目标语言文本文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];(2.1.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示;MWS=n×ms (2)式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数;(2.1.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS;(2.2)挖掘文本特征词2_频繁项集L2,具体步骤如下:(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2;(2.2.2)剪枝不含原查询词项的2_候选项集C2;(2.2.3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计余下的2_候选项集C2的项集权值w[C2];(2.2.4)如果w[C2]≥MWS,则C2就文本特征词2_频繁项集L2,添加到频繁项集集合FIS;(2.3)挖掘文本特征词k_频繁项集Lk,所述k≥2;具体步骤如下:(2.3.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集Lk‑1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;(2.3.2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);(2.3.3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck;(2.3.4)对于余下的Ck,分别计算Ck的项集关联度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);(2.3.5)如果文本特征词k_频繁项集Lk为空集,这时,则文本特征词频繁项集挖掘结束,转入如下步骤(2.4),否则,k加1后转入步骤(2.3.1)继续顺序循环;(2.4)从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,所述k≥2,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式:(2.4.1)构建Lk的所有真子集项集集合;(2.4.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
qt∪Et=Lk,
QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(4)所示:
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数;(2.4.3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度WConf(qt→Et);若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到关联规则模式集合AR;所述WConf(qt→Et)的计算公式如式(5)所示:
式(5)中,w[(qt)],k1,w[(qt,Et)],kL定义同式(4);(2.4.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(2.4.1)依序执行进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(2.4.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤3;步骤3:从关联规则模式集合AR中提取每个关联规则qt→Et的后件Et作为查询扩展词,计算所述查询扩展词权值:所述扩展词的权值we计算公式如式(6)所示:we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)式(6)中,max(WConf())、max(Chis())和max(IRe())分别表示关联规则置信度的最大值、卡方值的最大值和关联度的最大值;步骤4:所述查询扩展词与原查询词组合为新查询,新查询再次检索目标语言文档得到最终检索结果目标语言文档,最终检索结果目标语言文档通过机器翻译工具翻译为源语言文档返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811649213.1/,转载请声明来源钻瓜专利网。