[发明专利]一种裁判文书结构化方法及装置有效
申请号: | 202010041736.9 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111259631B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 席丽娜;王文军;晋耀红 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F16/31;G06F16/33;G06F16/903 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 裁判 文书 结构 方法 装置 | ||
1.一种裁判文书结构化方法,其特征在于,所述方法包括:
利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本,所述第一结构化文本由所述第一抽取模板中各抽取节点与所述待处理裁判文书中对应的块文本组成;
利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本,所述子结构化文本由所述第二抽取模板中各抽取节点与所述指定块文本中对应的子块文本组成;
将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本;
利用所述第二子结构化文本更新所述第一结构化文本中对应的内容,得到第二结构化文本;
所述利用第二抽取模板从所述第一结构化文本的指定块文本中进行抽取,得到第一子结构化文本包括:
确定所述第二抽取模板中每一抽取节点对应的特征抽取模型;
利用所述特征抽取模型从所述指定块文本中确定目标字符串和目标终止符,所述目标字符串为与所述特征抽取模型中的抽取表达式相匹配的字符串,所述目标终止符是指预设的代表子块文本结束的符号;
确定子块文本,所述子块文本为同一所述抽取节点对应的从所述目标字符串起至所述目标终止符之间的字符;
将所述第二抽取模板中的每一抽取节点与所述子块文本相对应,生成第一子结构化文本。
2.根据权利要求1所述的方法,其特征在于,所述利用第一抽取模板抽取待处理裁判文书中的块文本,得到第一结构化文本包括:
按照第一抽取模板中每一抽取节点,确定待处理裁判文书中的节点字符,所述抽取节点为与所述待处理裁判文书中各部分内容具有对应关系的字符串,所述节点字符为所述待处理裁判文书中与所述抽取节点相对应的部分内容的起始字符;
确定每一所述抽取节点对应的块文本,所述块文本为从所述抽取节点对应的节点字符起到下一节点字符之间的全部字符;
将每一所述抽取节点与所述块文本相对应,生成第一结构化文本。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本包括:
从所述第一子结构化文本的子块文本中确定第一类子块文本,所述第一类子块文本为所在指定块文本对应的抽取节点与第一类别关键词相匹配的子块文本;
从所述第一类子块文本中确定目标类别关键词,所述目标类别关键词为与预设类别关键词的匹配度大于或者等于预设匹配阈值的分词;
确定分类文本,所述分类文本为所述子块文本中具有同一所述目标类别关键词的文本;
从每一所述分类文本中确定第一序号标识符;
以所述第一序号标识符为分隔节点划分所述分类文本,得到第一子文本;
在相邻两个所述第一子文本之间添加换行符,以使一个所述第一子文本对应一个段落;
结合所述目标类别关键词、所述序号标识符和对应的第一子文本生成第二子结构化文本。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一子结构化文本的子块文本转换为具有预设特征表达格式的文本,得到第二子结构化文本包括:
从所述第一子结构化文本的子块文本中确定第二类子块文本,所述第二类子块文本为所在指定块文本对应的抽取节点与第二类别关键词相匹配的子块文本;
以预设分隔符为节点划分所述第二类子块文本,得到第二子文本;
利用第一特征抽取模型从所述第二子文本中抽取第三子文本;
从每一所述第三子文本中获取第二序号标识符;
确定所述第三子文本对应的目标第一子文本,所述目标第一子文本为与所述第二序号标识符相同的所述第一序号标识符对应的第一子文本;
从每一所述第二子文本中提取第一标签关键词,所述第一标签关键词为与预设标签关键词相匹配的分词;
结合所述第三子文本、所述目标第一子文本和所述第一标签关键词生成第二子结构化文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010041736.9/1.html,转载请声明来源钻瓜专利网。