[发明专利]一种支持多关键词表达式的文本匹配方法在审

专利信息
申请号: 201510995759.2 申请日: 2015-12-28
公开(公告)号: CN105608201A 公开(公告)日: 2016-05-25
发明(设计)人: 舒琦 申请(专利权)人: 湖南蚁坊软件有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 410003 湖南省长*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 支持 关键词 表达式 文本 匹配 方法
【说明书】:

技术领域

本发明涉及网络检索技术领域,特别是一种支持多关键词表达式的文本匹配 方法。

背景技术

针对文本数据,存在多个关键词需要匹配的情况下,已有较多经典算法,这 些算法解决的问题都是如何在文本数据中精确匹配关键词,主要差别在算法的 复杂度上,即给定n个关键词,针对一段文本数据,当计算结束时,会给出在 文本中出现过的关键词。

在实际运用中,可以借助逻辑运算符将多个关键词连接在一起,形成一个关 键词表达式,从而能够表述关键词间更复杂的逻辑关系,继而获得更强大的匹 配能力,这是目前的算法所不支持的。

举个例子,给定3个关键词:中国、足球、2015,传统算法只会给出匹配到 了哪些关键词;假如用户想关心的是中国足球在2015年的相关信息,那么可以 将3个关键词表达为“中国&&足球&&2015”,意为该3个关键词必须在同一 个文本数据中同时出现,才算命中。

中国发明专利申请CN101398820A公开了一种大规模关键词匹配方法,包 括预处理阶段和模式匹配阶段,预处理阶段包括关键词特征串裁剪、基于关键 词特征串集合的多个简单布隆过滤器的构造,基于关键词特征串集合的哈希表 构造:模式匹配阶段包括:利用先前构造的简单布隆过滤器序列实现当前窗口中 文本串不与任何关键词特征串匹配的快速判定;在判定失败情况下执行与候选 关键词的精确匹配;文本扫描过程中,可以利用递归算法快速计算出当前文本 相对于各简单布隆过滤器的当前散列值。虽然,此发明利用里递归散列算法高 效的特点,可实现大规模关键词场景下的高速匹配,但是此发明无法对关键词 表达式进行文本匹配。

发明内容

本发明需要解决的技术问题提供一种能够基于多关键词表达式进行文本匹 配的方法。

为解决上述的技术问题,本发明的一种支持多关键词表达式的文本匹配方 法,包括以下步骤,

步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词;

步骤S102:关键词匹配阶段,以语法转换阶段输出的多组关键词作为输入, 采用关键词匹配算法完成,获得文本中出现过的关键词;

步骤S103:匹配度确定阶段,以关键词匹配阶段输出的出现过关键词的文本 作为输入,将关键词匹配阶段出现过的关键词与语法转换阶段获得的多组关键 词进行匹配程度确定。

进一步的,所述步骤S101语法转换阶段具体包括以下步骤,

步骤S1011:运算符和操作数提取,提取多关键词表达式中的运算符和操作 数;

步骤S1012:括号内表达式计算,优先计算括号内的表达式;

步骤S1013:括号间逻辑关系,计算各括号间的逻辑关系。

进一步的,所述步骤S101中任意一组中的关键词必须同时出现,组之间任 意出现一组,表示文本匹配成功。

更进一步的,步骤S103中将关键词匹配阶段出现过的关键词与语法转换阶 段获得的多组关键词进行匹配程度确定是指判断语法转换阶段获得的多组关键 词中是否存在任意一组关键词是关键词匹配阶段出现的关键词的子集;如果存 在,则确定该文本匹配成功,否则匹配失败。

采用上述方法后,本发明多关键词表达式的文本匹配方法,支持多关键词表 达式进行文本匹配,能够在一个表达式中表达复杂的匹配逻辑,提供了更为强 大的匹配能力。

附图说明

下面将结合附图和具体实施方式对本作进一步详细的说明。

图1为本发明一种支持多关键词表达式的文本匹配方法的流程图。

具体实施方式

如图1所示,本发明的一种支持多关键词表达式的文本匹配方法,包括以下 步骤,

步骤S101:语法转换阶段,将多关键词表达式转换为多组关键词。

所述步骤S101语法转换阶段具体包括以下步骤,

步骤S1011:运算符和操作数提取,提取多关键词表达式中的运算符和操作 数;

步骤S1012:括号内表达式计算,优先计算括号内的表达式;

步骤S1013:括号间逻辑关系,计算各括号间的逻辑关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南蚁坊软件有限公司,未经湖南蚁坊软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510995759.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top