[发明专利]用于正则表达式生成的用户界面命令在审
申请号: | 202080014471.1 | 申请日: | 2020-06-18 |
公开(公告)号: | CN113424178A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | M·马拉克;L·E·李瓦斯;M·L·克莱德尔 | 申请(专利权)人: | 甲骨文国际公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 鲍进 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 正则 表达式 生成 用户界面 命令 | ||
公开了用于生成的正则表达式的技术。在一些实施例中,正则表达式生成器可以接收包括一个或多个字符序列的输入数据。正则表达式生成器可以将字符序列转换成正则表达式代码和/或跨度数据结构的集合。正则表达式生成器可以识别由正则表达式代码和/或跨度的集合共享的最长公共子序列,并且可以基于最长公共子序列生成正则表达式。正则表达式的生成可以在交互式用户界面上实现。命令可以应用于一个或多个字符序列,并基于应用的命令生成正则表达式。
相关申请的交叉引用
本申请是2019年6月11日提交的标题为“USER INTERFACE FOR REGULAREXPRESSION GENERATION”的美国专利申请No.16/438,327的部分继续申请,该申请依据35U.S.C.§119(e)要求2018年6月13日提交的标题为“AUTOMATED GENERATION OF REGULAREXPRESSIONS”的美国临时专利申请No.62/684,498的优先权,并且依据35U.S.C.§119(e)要求2018年10月22日提交的标题为“AUTOMATED GENERATION OF REGULAR EXPRESSIONS”的美国临时专利申请No.62/749,001的优先权。本申请还依据35U.S.C.§119(e)要求2019年6月24日提交的标题为“AUTOMATED GENERATION OF REGULAR EXPRESSIONS”的美国临时专利申请No.62/865,797的优先权。其全部内容通过引用并入本文用于所有目的。
背景技术
大数据分析系统可以用于预测分析、用户行为分析和其它高级数据分析。但是,在可以有效地执行任何数据分析以提供有用的结果之前,可能需要将初始数据集格式化为干净和整理(curated)的数据集。这种数据载入通常给基于云的数据储存库和其它大数据系统带来挑战,在这些系统中,来自各种不同数据源和/或数据流的数据可能被编译到单个数据储存库中。此类数据可以包括多种不同格式的结构化数据、根据不同数据模型的半结构化数据,甚至非结构化数据。此类数据的储存库通常包括各种不同格式和结构的数据表示,并且也可能包括重复数据和错误数据。当针对报告、预测建模和其它分析任务分析这些数据储存库时,初始数据集的较差信噪比可能会导致不准确或无用的结果。
数据格式化和预处理问题的许多当前解决方案包括手动和自组织(ad hoc)处理来清理和整理数据,以便在执行数据分析之前将数据操纵成通用格式。虽然这些手动处理对于某些较小的数据集可能是有效的,但在尝试预处理和格式化大型数据集时,此类处理可能是低效且不切实际的。
发明内容
本文描述的方面提供用于生成正则表达式的各种技术。如本文所使用的,“正则表达式”可以指定义模式的字符序列,其可以用于搜索较长的输入文本串内的匹配。在一些实施例中,可以使用符号通配符匹配语言来组成正则表达式,并且可以使用正则表达式定义的模式来匹配字符串和/或从作为输入提供的字符串中提取信息。在本文描述的各种实施例中,实现为数据处理系统的正则表达式生成器可以用于接收和显示输入文本数据、经由客户端用户界面接收对输入文本的特定字符子集的选择,并且然后基于所选择的字符子集生成一个或多个正则表达式。在生成一个或多个正则表达式之后,可以使用正则表达式引擎将正则表达式的模式与一个或多个数据集进行匹配。在各种实施例中,匹配正则表达式的数据可以被提取、重新格式化或修改等。在一些情况下,可以基于匹配正则表达式的数据创建附加的列、表或其它数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甲骨文国际公司,未经甲骨文国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080014471.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:随机接入信道接入和有效性过程
- 下一篇:使用跨度突出显示对齐的正则表达式生成