[发明专利]一种裁判文书结构化方法及装置有效
申请号: | 202010041739.2 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111274354B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 席丽娜;王文军;刘大双 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/186;G06F40/205;G06F40/289;G06F40/30 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 裁判 文书 结构 方法 装置 | ||
本申请提供了一种裁判文书结构化方法及装置,首先,利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,然后,利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本,并利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本。最后,利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。可见,本申请所提供的裁判文书结构化方法可以通过对第一结构化文本进一步抽取和分类,得到更加细化的第二结构化文本,从而可以更完整地展示待处理裁判文书的内容。
技术领域
本申请涉及文本处理技术领域,尤其涉及一种裁判文书结构化方法及装置。
背景技术
通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于一些比较特殊的裁判文书,例如民事裁判文书,有一些隐含信息需要在浏览全部文本信息的基础上,有针对性地从文本信息的部分信息中提炼获得。针对此类裁判文书,用户浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。
具体地,例如用户需要从裁判文书中查找与争议焦点相关的内容,则需要从裁判文书的首个字符开始浏览,在了解裁判文书所阐述的各部分内容之后,判断争议焦点可能出现的部分内容,进一步提炼和分析该部分内容以获得争议焦点相关的内容。但是,这种通过人工分析裁判文书的结构,进而获取结果的方式不仅费时,而且会受到学识、思维等不定因素的影响,极易导致所获取的结果准确性较低,不具有参考价值。可见,现有浏览裁判文书的方式效率和质量较低。
发明内容
本申请提供了一种裁判文书结构化方法及装置,以提高裁判文书的格式规范性,方便用户浏览。
第一方面,本申请提供了一种裁判文书结构化方法,所述方法包括:
利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;
利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本;
利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述目标块文本中对应的子文本组成;
利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。
第二方面,本申请提供了一种裁判文书结构化装置,所述装置包括:
第一抽取单元,用于利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;
目标块文本确定单元,用于利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本;
第二抽取单元,用于利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述目标块文本中对应的子文本组成;
更新单元,用于利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010041739.2/2.html,转载请声明来源钻瓜专利网。