[发明专利]一种裁判文书结构化方法及装置在审
申请号: | 202010041170.X | 申请日: | 2020-01-15 |
公开(公告)号: | CN111259645A | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 席丽娜;王文军;晋耀红 | 申请(专利权)人: | 中科鼎富(北京)科技发展有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/103;G06F40/258;G06F40/30;G06Q50/18 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区万*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 裁判 文书 结构 方法 装置 | ||
1.一种裁判文书结构化方法,其特征在于,所述方法包括:
利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;
利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子文本组成;
利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本。
2.根据权利要求1所述的方法,其特征在于,所述利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本之前包括:
获取裁判文书样本,所述裁判文书样本的所属类别相同;
按照预设文本划分规则,将每一所述裁判文书样本划分为样本块文本;
针对每一所述样本块文本设定一个节点标题;
结合同一所述裁判文书样本的全部节点标题,生成对应的抽取模板样本;
结合各所述抽取模板样本,生成抽取模板。
3.根据权利要求2所述的方法,其特征在于,所述利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本之前还包括:
从所述待处理裁判文书中提取与关键词库中的词语相匹配的目标关键词;
计算各目标关键词与全部所述抽取模板中每一所述抽取模板的模板标题的语义相似度;
结合各所述目标关键词对应的权重和语义相似度,计算所述待处理裁判文书与每一所述抽取模板的匹配度;
确定第一抽取模板,所述第一抽取模板为匹配度最高的所述抽取模板。
4.根据权利要求1所述的方法,其特征在于,所述利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本包括:
按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;
确定每一所述抽取节点对应的块文本,所述块文本由从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;
将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。
5.根据权利要求1所述的方法,其特征在于,所述利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本包括:
根据所述第二抽取模板中的各个抽取节点,确定对应的抽取公式;
利用每一所述抽取公式从所述指定块文本中进行抽取,得到对应的目标字符串;
确定子文本,所述子文本为由所述目标字符串起到预设终止符号之间的全部字符;
将所述第二抽取模板中的每一抽取节点与所述子文本相对应,生成子结构化文本。
6.根据权利要求1所述的方法,其特征在于,所述利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到子结构化文本包括:
根据所述第二抽取模板中的各个抽取节点,确定对应的抽取公式;
利用每一所述抽取公式从所述指定块文本中进行抽取,得到对应的目标字符串;
确定待处理内容,所述待处理内容为由所述目标字符串起到预设终止符号之间的全部字符;
利用特征匹配模型从各所述待处理内容中确定子文本;
将所述第二抽取模板中的每一抽取节点与同一所述待处理内容对应的全部所述子文本相对应,生成子结构化文本。
7.根据权利要求6所述的方法,其特征在于,所述利用所述子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本包括:
确定前置抽取节点,所述前置抽取节点为所述子文本所在块文本对应的抽取节点;
利用所述子结构化文本替换所述第一结构化文本中所述前置抽取节点及对应块文本,得到第二结构化文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科鼎富(北京)科技发展有限公司,未经中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010041170.X/1.html,转载请声明来源钻瓜专利网。