[发明专利]一种利用复杂表达式进行数据比对的方法、装置及存储介质有效
申请号: | 201910383393.1 | 申请日: | 2019-05-09 |
公开(公告)号: | CN110188113B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 朱海勇;张秋霞;吴鸿伟;周成祖;王海滨;鄢小征 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2455;G06F16/33;G06F16/332 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 郝学江 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 复杂 表达式 进行 数据 方法 装置 存储 介质 | ||
本发明公开了一种利用复杂表达式进行数据比对的方法,包括以下步骤:S1:获取包括结构化数据和非结构化数据的基础数据;S2:选择结构化数据和非结构化数据中的数据作为子表达式,并通过逻辑运算符构造成复杂表达式,其中子表达式包括取自结构化数据的第一子表达式以及取自非结构化数据的第二子表达式,第一子表达式被用于精确匹配,第二子表达式被用于关键词匹配;S3:将子表达式分别进行比对获得比对情况;以及S4:根据比对情况通过表达式引擎对复杂表达式进行计算,得到数据的比对结果。在数据种类繁多、格式多样化的情况下实现复杂表达式实时、快速比对。既可以做到精确匹配,也可以非结构化的关键词匹配,为将来应用提供更精确有效的信息。
技术领域
本发明涉及数据筛选领域,具体涉及一种利用复杂表达式进行数据比对的方法、装置及存储介质。
背景技术
在大数据时代的今天,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。以往的单一数据比对非常具有局限性,对于复杂的数据比对已经无法适用。客户需要更精准的定位,提高精确度,既能满足多种数据筛选也能进行对非结构化数据的比对,从而将数据范围缩小到一定范围,能够得到更精准的定位,为今后的智能应用提供强有力的支持。
而且随着科学技术发展,数据种类繁多数据量大,数据格式越发变得更多样化,实时数据比对在实战中显得越发重要,单一的结构化或非结构化数据比对已不能满足客户的实战需要。
目前数据清洗领域里面都只是对于数据的单一化比对,结构化数据采用精确比,非结构化数据采用关键词匹配。对于复杂多样化数据就需要复杂化比对来进行对数据的处理提取,因此,提出一种通过复杂表达式来达到更精确比对提取更有效的信息是非常具有意义的。
发明内容
针对上述单一化数据比对的不足,本文提出了一种利用复杂表达式进行数据比对的方法,包括以下步骤:
S1:获取包括结构化数据和非结构化数据的基础数据;
S2:选择结构化数据和非结构化数据中的数据作为子表达式,并通过逻辑运算符构造成复杂表达式,其中子表达式包括取自结构化数据的第一子表达式以及取自非结构化数据的第二子表达式,第一子表达式被用于精确匹配,第二子表达式被用于关键词匹配;
S3:将子表达式分别进行比对获得比对情况;以及
S4:根据比对情况通过表达式引擎对复杂表达式进行计算,得到数据的比对结果。
进一步地,步骤S2与步骤S3之间还包括:S5:将子表达式以键值的方式缓存到第一数据库;以及S6:将第二子表达式中的所有关键词缓存到第二数据库,以用于构造查询器。
通过构造好所有关键词的查询器,可以大大提高后继使用查询器算法进行关键词匹配的效率。
进一步地,步骤S5中的子表达式的缓存方式包括:S51:将子表达式作为key,子表达式对应的复杂表达式作为value形成第一键值对进行缓存;或S52:将子表达式作为key,子表达式的运算符作为value形成第二键值对,再将子表达式的键值作为key,第二键值对作为value形成第三键值对进行缓存。
因此方便对子表达式进行调取,并对实时数据进行子表达式比对,运算符缓存也可以提高比对效率。
更进一步地,步骤S3包括:S31:将第一子表达式的key与缓存的键值进行遍历比对,并判断是否获得比对结果,是则返回True并将比对结果存储到第三数据库,否则返回False;以及S32:通过查询器对第二子表达式中相应的关键词进行比对,并判断是否获得比对结果,是则返回True并将比对结果存储到第三数据库,否则返回False。
因此,将缓存后的子表达式使用查询器比对,便于数据实时比对使用。
更进一步地,步骤S4包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910383393.1/2.html,转载请声明来源钻瓜专利网。