[发明专利]基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法在审

申请号：	201811649213.1	申请日：	2018-12-30
公开（公告）号：	CN109753559A	公开（公告）日：	2019-05-14
发明（设计）人：	黄名选	申请（专利权）人：	广西财经学院
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F17/28
代理公司：	广西南宁公平知识产权代理有限公司 45104	代理人：	黄春莲
地址：	530000 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法，首先借助机器翻译工具将源语言查询翻译为目标语言并检索目标语言文档，构建目标语言初检相关文档集，再通过项集权值比较在目标语言初检相关文档集中挖掘含有原查询词项的频繁项集，采用关联度‑卡方分析‑置信度评价框架从频繁项集中挖掘那些前件是原查询词项的关联规则，提取关联规则后件作为扩展词，扩展词与原查询词组合为新查询再次检索目标语言文档，将最终检索结果目标语言文档机器翻译为源语言文档返回给用户。本发明能克服现有关联规则挖掘技术的缺陷，采用项集剪枝和关联规则后件扩展技术，提高和改善跨语言文本检索性能，具有较高的应用价值和推广前景。
搜索关键词：	关联规则目标语言语言文本挖掘机器翻译规则后件检索目标语言文档查询词后件检索关联规则挖掘目标语言文档源语言查询源语言文档检索结果检索性能频繁项集词组合关联度文档集新查询置信度剪枝构建前件文档查询翻译返回应用分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法，其特征在于，包括下列步骤：步骤1：源语言用户查询通过机器翻译工具译为目标语言，采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档，通过对初检前列目标语言文档进行相关性判断构建目标语言初检相关文档集，预处理目标语言初检相关文档集，分别构建目标语言文本文档索引库和特征词库；步骤2：通过项集权值比较在目标语言初检相关文档集中挖掘含有原查询词项的频繁项集，采用关联度‑卡方分析‑置信度评价框架从频繁项集中挖掘那些前件是原查询词项的关联规则；具体步骤如下：(2.1)挖掘文本特征词1_频繁项集L₁，具体步骤如下：(2.1.1)从特征词库中提取文本特征词作为1_候选项集C₁；(2.1.2)扫描目标语言文本文档索引库，统计文本文档总数n和统计C₁的项集权值w[C₁]；(2.1.3)计算最小权值支持阈值MWS；所述MWS计算公式如式(2)所示；MWS＝n×ms (2)式(2)中，所述ms为最小支持度阈值，n为目标语言文本文档索引库的文本文档总数；(2.1.4)如果w[C₁]≥MWS，则C₁就是文本特征词1_频繁项集L₁，添加到频繁项集集合FIS；(2.2)挖掘文本特征词2_频繁项集L₂，具体步骤如下：(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L₁自连接得到多个2_候选项集C₂；(2.2.2)剪枝不含原查询词项的2_候选项集C₂；(2.2.3)对余下的2_候选项集C₂，扫描目标语言文本文档索引库分别统计余下的2_候选项集C₂的项集权值w[C₂]；(2.2.4)如果w[C₂]≥MWS，则C₂就文本特征词2_频繁项集L₂，添加到频繁项集集合FIS；(2.3)挖掘文本特征词k_频繁项集L_k，所述k≥2；具体步骤如下：(2.3.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集L_k‑1自连接得到多个k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；(2.3.2)扫描目标语言文本文档索引库，分别统计各C_k的项集权值w[C_k]和各C_k中最大的项目权值w_m，分别得到各C_k中最大的项目权值w_m对应的项目i_m，所述m∈(1,2,…,k)；(2.3.3)如果所述项目i_m对应的1_项集(i_m)是非频繁的，或者w_m<MWS，则剪枝所述C_k；(2.3.4)对于余下的C_k，分别计算C_k的项集关联度IRe(C_k)，如果w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，该C_k就是文本特征词k_频繁项集L_k，添加到频繁项集集合FIS；所述minIRe为最小项集关联度阈值；所述IRe(C_k)的计算公式如式(3)所示；式(3)中，w_min[(i_q)]和w_max[(i_p)]的含义如下：对于C_k＝(i₁,i₂,…i_k)，k_候选项集C_k的各个项目i₁,i₂,…,i_k分别单独作为1_项集时对应为(i₁),(i₂),…,(i_k)；w_min[(i_q)]和w_max[(i_p)]分别表示1_项集(i₁),(i₂),…,(i_k)中最小的1_项集权值和最大的1_项集权值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；(2.3.5)如果文本特征词k_频繁项集L_k为空集，这时，则文本特征词频繁项集挖掘结束，转入如下步骤(2.4)，否则，k加1后转入步骤(2.3.1)继续顺序循环；(2.4)从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集L_k，所述k≥2，按照下面步骤挖掘每个L_k的所有含有原查询词项的关联规则模式：(2.4.1)构建L_k的所有真子集项集集合；(2.4.2)从真子集项集集合中任意取出两个真子集项集q_t和E_t，且q_t∪E_t＝L_k，Q_TL为目标语言原查询词项集合，E_t为不含原查询词项的特征词项集，计算项集(q_t,E_t)的卡方值Chis(q_t,E_t)，计算公式如式(4)所示：式(4)中，w[(q_t)]为项集q_t在目标语言文本文档索引库中项集权值，k₁为项集q_t的长度，w[(E_t)]为项集E_t在目标语言文本文档索引库中项集权值，k₂为项集E_t的长度，w[(q_t,E_t)]为项集(q_t,E_t)在目标语言文本文档索引库中的项集权值，k_L为项集(q_t,E_t)的项目个数，n为目标语言文本文档索引库的文本文档总数；(2.4.3)如果Chis(q_t,E_t)>0，则计算文本特征词加权关联规则置信度WConf(q_t→E_t)；若WConf(q_t→E_t)≥最小置信度阈值mc，则关联规则q_t→E_t是强加权关联规则模式，添加到关联规则模式集合AR；所述WConf(q_t→E_t)的计算公式如式(5)所示：式(5)中，w[(q_t)]，k₁，w[(q_t,E_t)]，k_L定义同式(4)；(2.4.4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的文本特征词加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(2.4.1)依序执行进行另一个L_k的加权关联规则模式挖掘，否则，转入步骤(2.4.2)再顺序执行各个步骤；如果频繁项集集合FIS中的每个L_k都已经被取出挖掘加权关联规则模式，则结束整个加权关联规则模式挖掘，转入如下步骤3；步骤3：从关联规则模式集合AR中提取每个关联规则q_t→E_t的后件Et作为查询扩展词，计算所述查询扩展词权值：所述扩展词的权值w_e计算公式如式(6)所示：w_e＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)式(6)中，max(WConf())、max(Chis())和max(IRe())分别表示关联规则置信度的最大值、卡方值的最大值和关联度的最大值；步骤4：所述查询扩展词与原查询词组合为新查询，新查询再次检索目标语言文档得到最终检索结果目标语言文档，最终检索结果目标语言文档通过机器翻译工具翻译为源语言文档返回给用户。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西财经学院，未经广西财经学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811649213.1/，转载请声明来源钻瓜专利网。

上一篇：基于用户手册构建问答系统的方法、装置及系统
下一篇：智能问答系统的信息处理方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法在审

专利文献下载