[发明专利]一种裁判文书结构化方法及装置有效
申请号: | 202010041739.2 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111274354B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 席丽娜;王文军;刘大双 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/186;G06F40/205;G06F40/289;G06F40/30 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 裁判 文书 结构 方法 装置 | ||
1.一种裁判文书结构化方法,其特征在于,所述方法包括:
利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;
将所述第一结构化文本中包含隐含信息的部分块文本定义为指定块文本,所述隐含信息包括分散于块文本中、用户对其具有关注需求,且需要通过进一步浏览和提取才能够获得的文本内容;
利用所述特征模型中的每一特征表达式匹配所述指定块文本,得到每一指定块文本中的特征字符串;
确定目标块文本,所述目标块文本为所述特征字符串起到预设终止符号之间的全部字符;
利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述目标块文本中对应的子文本组成;
利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。
2.根据权利要求1所述的方法,其特征在于,所述利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本包括:
按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;
确定每一所述抽取节点对应的块文本,所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;
将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。
3.根据权利要求1所述的方法,其特征在于,所述利用特征模型从所述第一结构化文本的指定块文本中确定目标块文本之前包括:
获取第一参考样本,所述第一参考样本具有与所述第一结构化文本相同的文本结构;
获取所述特征模型对应的待抽取特征;
确定所述待抽取特征在每一所述第一参考样本中对应的特征块文本;
汇总对应同一所述待抽取特征的特征块文本的数量;
确定指定块文本,所述指定块文本为所述数量与所述参考样本的总数量的比值大于或者等于预设阈值的所述数量对应的所述特征块文本。
4.根据权利要求1所述的方法,其特征在于,所述利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本之前包括:
获取第二参考样本,所述第二参考样本与所述目标块文本具有相同的内容类别;
按照预设文本分类规则,将每一所述第二参考样本划分为样本块文本;
针对每一所述样本块文本设定一个分类标签;
结合同一所述第二参考样本的全部分类标签,生成对应的抽取模板样本;
结合各所述抽取模板样本,生成第二抽取模板。
5.根据权利要求4所述的方法,其特征在于,所述利用第二抽取模板对每一所述目标块文本进行抽取,得到子结构化文本包括:
确定所述第二抽取模板中每一所述分类标签对应的抽取表达式;
利用所述抽取表达式与每一所述目标块文本进行匹配,得到子文本;
将所述分类标签与所述子文本相对应,生成子结构化文本。
6.根据权利要求5所述的方法,其特征在于,所述利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本包括:
如果所述目标块文本覆盖所述指定块文本,则确定前置抽取节点,所述前置抽取节点为所述指定块文本对应的抽取节点;
利用所述子结构化文本替换所述第一结构化文本中所述前置抽取节点及对应块文本,得到第二结构化文本。
7.根据权利要求5所述的方法,其特征在于,所述利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本包括:
如果所述目标块文本覆盖所述指定块文本中的部分内容,且所述目标块文本与所述指定块文本中除所述部分内容以外的内容之间存在引用关系,则将所述子结构化文本添加至所述第一结构化文本中,得到第二结构化文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010041739.2/1.html,转载请声明来源钻瓜专利网。