[发明专利]基于RUTA规则语言进行法规文本解析的方法及系统在审
申请号: | 202011001064.5 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112364621A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 张俊磊 | 申请(专利权)人: | 北京新橙科技有限公司;北京新橙长科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/31;G06F16/951;G06Q50/18 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ruta 规则 语言 进行 法规 文本 解析 方法 系统 | ||
本发明公开基于RUTA规则语言进行法规文本解析的方法及系统,其中该方法包括:获取待解析的法规文本数据;对所述法规文本数据的内容进行标记,获取标记结果数据;将所述标记结果数据解析为结构化的法规文本数据并存储。利用RUTA规则对法规文本数据的内容进行标记,获取标记结果数据;入了RUTA规则以后,能够通过标记将对应实体内容之间的关系一起提取出来,进而实现将标记结果数据解析为结构化的法规文本数据并存储,不仅复用性好,而且获取的结构化文本内容准确性也比较高。基于RUTA规则语言进行法规文本解析的系统采用上述方法,以准确地提取结构化的法规文本数据。
技术领域
本发明涉及数据处理技术领域,尤其涉及基于RUTA规则语言进行法规文本解析的方法及系统。
背景技术
政府网站发布的裁判文书和法规条文通常为文本类型的非结构化数据,对于非结构化数据,人可以通过大脑分析获取其中的有用信息,但是对计算机而言很难处理这种非结构化数据,必须基于一定的规则,将他们提取为结构化的数据,然后对这些结构化的数据加以利用分析,来帮助人更好的利用这些数据。目前,对于非结构化文本数据的解析,大多采用正则表达式来提取内容并封装为结构化的数据,但利用这种方式提取像法规这种复杂文本时,对正则表达式本身的复杂度要求高且复用性差,而且获取的结构化文本内容准确性也比较差。
RUTA规则语言是一种基于角色的脚本语言,其中包含正则表达式以及自身所构建的语法,其不仅可以对特定信息进行标注,也可以对特定关系进行给定,入了RUTA规则以后,能够通过标记将对应实体内容之间的关系一起提取出来,但是,目前还没有将RUTA规则语言应用于对法规文本进行结构化解析的方案。
发明内容
本发明的目的在于提供基于RUTA规则语言进行法规文本解析的方法及系统,以准确地提取结构化的法规文本数据。
为了实现上述目的,本发明提供如下技术方案:
一种基于RUTA规则语言进行法规文本解析的方法,包括:
获取待解析的法规文本数据;
对所述法规文本数据的内容进行标记,获取标记结果数据;
将所述标记结果数据解析为结构化的法规文本数据并存储。
优选地,获取待解析的法规文本数据的方法包括:
识别并抓取网页上的法规文本数据,将所述法规文本数据清洗后存储到第一数据库中;
从所述第一数据库中获取待解析的法规文本数据。
较佳地,对所述法规文本数据的内容进行标记,获取标记结果数据的方法包括:
针对法规文本数据中的内容特征点分别设置对应的文本标记规则,生成文本标记模型;
利用所述文本标记模型对所述法规文本数据的内容进行标记,得到标记结果数据,所述标记结果数据用于将法规文本数据中每个部分内容与其对应的标记对应保存,同时保存每个部分内容之间的关系。
具体地,所述内容特征点包括法规名称特征、日期特征以及法规文本格式特征。
进一步地,针对法规文本数据中的法规名称特征设置对应的文本标记规则的方法包括:
基于正则表达式设置法规名称结束标志符;
遍历法规文本数据,获取并标记所有包含书名号的数据;
从所有包含书名号的数据中筛选出包含法规名称结束标志符的数据,并标记为法规名称。
优选地,针对法规文本数据中的法规名称特征设置对应的文本标记规则的方法还包括:
创建法规名称存储表并预存储多个法规名称;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新橙科技有限公司;北京新橙长科技有限公司,未经北京新橙科技有限公司;北京新橙长科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011001064.5/2.html,转载请声明来源钻瓜专利网。