[发明专利]一种司法文书中法律要素的关系抽取方法有效
申请号: | 202110770848.2 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113553385B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 白雄文;陈飞;王红艳;惠欣恒;安娜 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/35;G06F16/215;G06F40/30;G06F40/211;G06F40/295;G06N3/0455;G06N3/098;G06Q50/18 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 辛海明 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 司法 文书 法律 要素 关系 抽取 方法 | ||
1.一种司法文书中法律要素的关系抽取方法,其特征在于,该方法包括如下步骤:
S1、利用自然语言处理技术对司法文书进行数据清洗;
S2、将清洗过的司法文书根据各类型文书的规则机制进行段落划分;
S3、利用“三位标注”的标注方式对法律要素的实体及实体主客体的关系进行标注;
S4、使用“三位标注”标注的数据作为深度神经网络模型的原始输入,完成法律要素的实体及实体间关系的识别及抽取;
其中,
所述步骤S4中的深度神经网络模型是双向注意力机制编码深度神经网络模型;
所述步骤S4具体包括:法律要素的实体识别任务在双向注意力机制编码深度神经网络模型的输出端叠加条件随机场层,法律要素实体关系的识别任务是在双向注意力机制编码深度神经网络模型的输出端进行多分类逻辑回归,并对其进行联合学习。
2.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S1中数据清洗是指司法文书的噪声去除,包括空格、空行、编码、全半角和停用词。
3.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S2中段落划分后,司法文书被分解为案件基础信息、诉讼信息、基本案情、审判认定信息、判决信息和结尾阶段。
4.如权利要求3所述的司法文书中法律要素的关系抽取方法,其特征在于,所述步骤S3包括将划分后的六大部分通过相关规则细化切分成语句或者短段落;抽取相关段落或者关键句子进行数据标注处理。
5.如权利要求4所述的司法文书中法律要素的关系抽取方法,其特征在于,“三位标注”的标注方式包括:实体主体开头“B-SUB”、实体主体内部“I-SUB”、实体客体开头“B-OBJ”、实体客体内部“I-OBJ”和非实体类型“O”。
6.如权利要求1所述的司法文书中法律要素的关系抽取方法,其特征在于,所述双向注意力机制编码深度神经网络模型将输入序列转换成输出序列,该输出序列的每一个位置的输出可对应输入序列的每一个位置的输入。
7.如权利要求6所述的司法文书中法律要素的关系抽取方法,其特征在于,条件随机场层对输出标签的路径进行约束,排除不符合序列标注顺序的结果,实现案件要素的识别。
8.如权利要求6所述的司法文书中法律要素的关系抽取方法,其特征在于,法律要素实体关系的识别任务进一步包括在双向注意力机制编码深度神经网络模型的输出端叠加全连接层后进行多分类逻辑回归,求得每个关系类别的最大概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110770848.2/1.html,转载请声明来源钻瓜专利网。