[发明专利]裁判文书的分段方法及装置在审
申请号: | 201510867898.7 | 申请日: | 2015-12-01 |
公开(公告)号: | CN106815204A | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 胡斌;杜宁 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 韩建伟,张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 裁判 文书 分段 方法 装置 | ||
技术领域
本申请涉及文本处理技术领域,具体而言,涉及一种裁判文书的分段方法及装置。
背景技术
裁判文书是记载人民法院审理过程和结果的载体,也是人民法院确定和分配当事人实体权利与义务的惟一凭证。一份结构完整、要素齐全、逻辑严谨的裁判文书,既是当事人享有权利和负担义务的凭证,也是上级人民法院监督下级人民法院民事审判活动的重要依据。
相关技术中,时常需要将裁判文书进行段落划分以进行相关的数据分析。通常,将裁判文书段落划分使用的技术是逐行匹配,首先将全文拆分成一行一行首尾连接的文本链表;其次将文本链表匹配现有的规则链表,其中,链表是一种线性表,但是并不会按线性的顺序存储数据,而是在每一个节点里存到下一个节点的指针。文本链表和规则链表都是逐个匹配且匹配成功后跳转到下一个匹配项,根据具体的匹配项输出到对应的段落;由于使用的两个链表做匹配且是单向向前匹配,如果前面的某处匹配失败后,后序所有内容都匹配出问题。即段落划分容易出现一处错误处处错误,这种严重连带的错误。因此,导致裁判文书中段落划分的准确性较低。
针对相关技术中裁判文书的段落划分的准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种裁判文书的分段方法及装置,以解决相关技术中裁判文书的段落划分的准确性较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种裁判文书的分段方法。该方法包括:对目标裁判文书进行分行处理,得到文书行集合,其中,文书行集合为对目标裁判文书进行分行处理后得到的多个文书行组成的集合;根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识,其中,预设正则规则集合为根据多篇裁判文书统计出的规则组成的集合;以及基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理。
进一步地,根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识包括:;将预设正则规则集合中的多个正则规则条件逐次与文书行集合中的每个文书行的内容进行匹配;获取文书行集合中与多个正则规则条件匹配上的文书行;以及对与多个正则规则条件匹配上的文书行添加对应的段落标识。
进一步地,根据预设正则规则集合分别对文书行集合中的每个文书行添加对应的段落标识包括:将预设正则规则集合中的多个正则规则条件逐次与文书行集合中的每个文书行的内容进行匹配;获取文书行集合中未与多个正则规则条件匹配上的文书行,得到至少一个未标识文书行;在文书行集合中确定至少一个未标识文书行的上一个文书行对应的段落标识;以及将至少一个未标识文书行的上一个文书行对应的段落标识作为至少一个未标识文书行的段落标识。
进一步地,多个正则规则条件包括第一正则规则条件和第二正则规则条件,其中,第一正则规则条件当前与文书行集合进行匹配的条件,第二正则规则条件为第一正则规则条件与文书行集合匹配失败的情况下,多个正则规则条件中下一个与文书行集合进行匹配的条件,将预设正则规则集合中的多个正则规则条件逐次与文书行集合中的每个文书行的内容进行匹配包括:将多个正则规则条件中的第一正则规则条件与文书行集合中的每个文书行的内容进行匹配;判断多个正则规则条件中的第一正则规则条件与文书行集合中的每个文书行的内容是否匹配结束;如果多个正则规则条件中的第一正则规则条件与文书行集合中的每个文书行的内容已匹配结束,将多个正则规则条件中的第二正则规则条件作为当前与文书行集合中的每个文书行的内容进行匹配的条件;以及将多个正则规则条件中的第二正则规则条件与文书行集合中的每个文书行的内容进行匹配。
进一步地,对目标裁判文书进行分行处理,得到文书行集合包括:确定目标裁判文书的格式类型;确定目标裁判文书的格式类型对应的换行符;以及根据目标裁判文书的格式类型对应的换行符进行分行处理,得到文书行集合。
进一步地,基于文书行集合中的每个文书行对应的段落标识对目标裁判文书进行分段处理包括:确定文书行集合中的每个文书行对应的段落标识中的每个段落标识;基于每个段落标识对目标裁判文书中的文书行进行段落划分;以及将具有相同的段落标识的多个文书行合并为同一个段落。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510867898.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种裁判文书中的金额解析方法及装置
- 下一篇:裁判文书的分段方法及装置