[发明专利]基于RUTA规则语言进行法规文本解析的方法及系统在审

申请号：	202011001064.5	申请日：	2020-09-22
公开（公告）号：	CN112364621A	公开（公告）日：	2021-02-12
发明（设计）人：	张俊磊	申请（专利权）人：	北京新橙科技有限公司;北京新橙长科技有限公司
主分类号：	G06F40/205	分类号：	G06F40/205;G06F16/31;G06F16/951;G06Q50/18
代理公司：	北京市万慧达律师事务所 11111	代理人：	黄玉东
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 ruta 规则语言进行法规文本解析方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开基于RUTA规则语言进行法规文本解析的方法及系统，其中该方法包括：获取待解析的法规文本数据；对所述法规文本数据的内容进行标记，获取标记结果数据；将所述标记结果数据解析为结构化的法规文本数据并存储。利用RUTA规则对法规文本数据的内容进行标记，获取标记结果数据；入了RUTA规则以后，能够通过标记将对应实体内容之间的关系一起提取出来，进而实现将标记结果数据解析为结构化的法规文本数据并存储，不仅复用性好，而且获取的结构化文本内容准确性也比较高。基于RUTA规则语言进行法规文本解析的系统采用上述方法，以准确地提取结构化的法规文本数据。

技术领域

本发明涉及数据处理技术领域，尤其涉及基于RUTA规则语言进行法规文本解析的方法及系统。

背景技术

政府网站发布的裁判文书和法规条文通常为文本类型的非结构化数据，对于非结构化数据，人可以通过大脑分析获取其中的有用信息，但是对计算机而言很难处理这种非结构化数据，必须基于一定的规则，将他们提取为结构化的数据，然后对这些结构化的数据加以利用分析，来帮助人更好的利用这些数据。目前，对于非结构化文本数据的解析，大多采用正则表达式来提取内容并封装为结构化的数据，但利用这种方式提取像法规这种复杂文本时，对正则表达式本身的复杂度要求高且复用性差，而且获取的结构化文本内容准确性也比较差。

RUTA规则语言是一种基于角色的脚本语言，其中包含正则表达式以及自身所构建的语法，其不仅可以对特定信息进行标注，也可以对特定关系进行给定，入了RUTA规则以后，能够通过标记将对应实体内容之间的关系一起提取出来，但是，目前还没有将RUTA规则语言应用于对法规文本进行结构化解析的方案。

发明内容

本发明的目的在于提供基于RUTA规则语言进行法规文本解析的方法及系统，以准确地提取结构化的法规文本数据。

为了实现上述目的，本发明提供如下技术方案：

一种基于RUTA规则语言进行法规文本解析的方法，包括：

获取待解析的法规文本数据；

对所述法规文本数据的内容进行标记，获取标记结果数据；

将所述标记结果数据解析为结构化的法规文本数据并存储。

优选地，获取待解析的法规文本数据的方法包括：

识别并抓取网页上的法规文本数据，将所述法规文本数据清洗后存储到第一数据库中；

从所述第一数据库中获取待解析的法规文本数据。

较佳地，对所述法规文本数据的内容进行标记，获取标记结果数据的方法包括：