[发明专利]正则表达式筛选方法和装置有效

专利信息
申请号: 201711446396.2 申请日: 2017-12-27
公开(公告)号: CN108182234B 公开(公告)日: 2021-07-09
发明(设计)人: 吴云鹤;郝亚森 申请(专利权)人: 鼎富智能科技有限公司
主分类号: G06F16/45 分类号: G06F16/45;G06F16/43;G06F40/211
代理公司: 北京弘权知识产权代理有限公司 11363 代理人: 逯长明;许伟群
地址: 230000 安徽省合肥市*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 正则 表达式 筛选 方法 装置
【说明书】:

公开了一种正则表达式筛选方法和装置,所述方法包括:获取待筛选的正则表达式和语料集,所述语料集中包括至少一条语料;将语料集中所有语料与所述正则表达式进行匹配,并统计相匹配的语料数量,计算所述相匹配的语料数量占所述语料集中的语料总数的比例,和/或,匹配时长,所述匹配时长为所述正则表达式匹配语料集中的所有语料所用的时间;如果所述比例小于等于预设比例,或者所述匹配时长大于等于预设时长,或者所述比例或所述匹配时长中的至少一个达到预设条件,则确定所述正则表达式需要优化。本方法能够从庞大的语言模型中快速地筛选出需要优化的正则表达式,为优化大型语言模型中的正则表达式提供了便利,提高了筛选效率。

技术领域

本申请涉及文本挖掘技术领域,用于测试语义模型的性能损耗和正则表达式的匹配时间,并从庞大的模型中,定位到改善模型所需要优化的正则表达式,具体地涉及了一种正则表达式筛选方法和装置。

背景技术

在计算机科学中,正则表达式,又称规则表达式(Regular Expression,在代码中常简写为regex、regexp或RE)是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。

正则表达式匹配是一种常用的文本挖掘处理方式,基于语言规则建立正则表达式,能够实现信息抽取、文本分类等功能。一般地,为了方便搜索和查找,将为实现同一目的的正则表达式归纳为一个集合,每个集合可以称为一个模型,当模型体积过大或正则表达式建立不合理时,就需要对模型中的表达式进行优化,即筛选出不合格的正则表达式,所以,如何在庞大的模型中找到需要优化的正则表达式就成为一个至关重要的问题。

发明内容

本申请提供了正则表达式筛选方法和装置,以快速地查找到需要优化的正则表达式、提高筛选效率。

第一方面,本申请提供了一种正则表达式筛选方法,该方法包括:

获取待筛选的正则表达式和语料集,所述语料集中包括至少一条语料;

将所述语料集中所有语料与所述正则表达式进行匹配,并统计相匹配的语料数量,计算所述相匹配的语料数量占所述语料集中的语料总数的比例,和/或,匹配时长,所述匹配时长为所述正则表达式匹配所述语料集中的所有语料所用的时间;

如果所述比例小于等于预设比例,或者所述匹配时长大于等于预设时长,或者所述比例或所述匹配时长中的至少一个达到预设条件,则确定所述正则表达式需要优化。

结合第一方面,在第一方面的一种实现方式中,将所述语料集中的所有语料与所述正则表达式进行匹配,包括:确定所述正则表达式所对应的字符规则;检测所述语料集中的每条语料是否符合所述字符规则;如果是,则确定所述当前语料与所述正则表达式相匹配;如果否,则确定所述当前语料与所述正则表达式不相匹配。所述字符规则可根据待筛选的正则表达式进行设置。

结合第一方面,在第一方面的另一种实现方式中,所述获取待筛选的正则表达式,包括:获取用户输入的模型ID;根据所述模型ID在数据库中查找所述待筛选的正则表达式所属的第一模型,每个所述模型ID唯一对应一个正则表达式模型;从所述第一模型中确定所述待筛选的正则表达式。

结合第一方面,在第一方面的又一种实现方式中,所述第一模型中包括至少一个正则表达式,所述方法还包括:对所述第一模型中的至少一个正则表达式进行筛选,统计其中需要优化的正则表达式,以及,将所述需要优化的正则表达式从所述第一模型中剔除。

结合第一方面,在第一方面的又一种实现方式中,所述方法还包括:将对所述待筛选的正则表达式的筛选结果通过图形化界面和应用程序编程接口API显示。

第二方面,本申请还提供了一种正则表达式筛选装置,所述装置包括:

获取单元,用于获取待筛选的正则表达式和语料集,所述语料集中包括至少一条语料;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711446396.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top