[发明专利]一种基于半监督、双层多分类的诉请识别方法在审
申请号: | 202310171687.4 | 申请日: | 2023-02-27 |
公开(公告)号: | CN116304033A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张凡凡;谭晓颖;李晓智;刘贤艳;孙晓锐;李娜娜;胡亚谦 | 申请(专利权)人: | 中国司法大数据研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/24;G06F18/214;G06F18/21 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100144 北京市石景*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 双层 分类 诉请 识别 方法 | ||
本发明公开了一种基于半监督、双层多分类的诉请识别方法,其步骤包括:1)获取训练文本集,包括标注数据集和未标注数据集;2)利用标注数据集对教师模型进行训练并得到各标注类别的自适应阈值;利用训练后的教师模型对未标注数据集中的每一未标注诉讼请求数据进行分类和标注,得到伪标签标注数据;3)利用伪标签标注数据和有标注诉讼请求数据训练学生模型,得到学生模型;4)利用学生模型对测试集中的数据进行分类预测,根据分类预测结果计算每一类别的F1分数;如果低于设定阈值,则将该类别下样本训练得到多任务模型;5)将学生模型和多任务模型串联组成双层模型;6)将待分类的民事诉请文本输入双层模型中,得到诉讼请求类别。
技术领域
本发明涉及深度学习文本分类领域,更具体地,涉及一种半监督、双层多分类的诉请识别方法。
背景技术
上诉状中的诉请是法官审理案件的重要依据,在实际受理案件的过程中,识别提取诉请会占法律工作人员大量时间和精力,所以基于深度学习技术对诉请智能识别提取变得尤为重要,从而提高法律工作人员的办案效率。
过去对于诉请的识别提取主要是人工查看或人工制定的规则提取,前者需要法律专业人员一直参与,后者需要基于法律体系及实际情况不断完善规则体系,极大地影响了法官办案效率。伴随硬件资源的飞速发展,深度学习也迎来快速发展的机遇,深度学习利用海量数据及复杂的网络结构使得在当前智能领域处于领先水平。然而深度学习文本分类需要大量有标签数据,在一些特定的领域需要有专家知识的工作者去标记数据,非常耗时费力,使得在工业场景中落地较为困难,所以急需利用少量样本就能获得鲁棒性较强的模型,实现对诉请的精准提取。
发明内容
本发明为克服上述技术问题,提供一种基于半监督、双层多分类的诉请识别方法。本发明是一种针对标注数据量少、模型结果能达到甚至超越通过大量有标注数据的监督学习的效果的一种诉请识别方法。
一种基于半监督、双层多分类的诉请识别技术的方法,包括以下步骤:
S1、获取训练民事诉请文本集:包括包含少量有标注诉讼请求数据的标注数据集和包含大量未标注诉讼请求数据的未标注数据集;
S2、对所述标注数据集中各有标注诉讼请求数据进行数据增强后输入教师模型中,对教师模型进行训练并得到各标注类别的自适应阈值;利用训练后的教师模型对所述未标注数据集中的每一未标注诉讼请求数据进行分类,得到各未标注诉讼请求数据的类别并将其作为对应未标注诉讼请求数据的伪标签,得到伪标签标注数据;然后使用各类别的自适应阈值对对应伪标签标注数据进行筛选;
S3、利用步骤S2筛选得到的伪标签标注数据和数据增强后的有标注诉讼请求数据训练学生模型,得到学生模型model1;
S4、通过分析model1在测试集预测结果中,对单类别F1分数低于固定阈值的类别选取该类别下所有预测结果错误样本的概率值排名中前n个类别组成共m个不同的n分类任务,通过m个n分类任务训练多任务模型,得到模型model2;
S5、将model1和model2串联组成双层模型model3;
S6、将民事诉请文本输入模型model3中得到诉请中一个或多个诉讼请求(类别)。
进一步地,S2中对标注数据集进行数据增强的方法包括:通过法律专有(或公开)领域训练的命名实体识别模型提取诉请数据中的时间、地点、人名、金额,时间处理方法:对提取到的时间做部分加减操作,地点处理方法:利用本领域已有的地点词库做对应替换,人名处理方法:利用本领域已有的人名库做对应替换,金额处理方法:对提取到的金额做部分加减操作;
使用简单规则利用诉请分类标签中的关键词对应法律领域现有同义词库中的同义词对诉请数据中的标签词做同义词替换;
除以上两步之外的部分数据通过词汇替换做数据曾广;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国司法大数据研究院有限公司,未经中国司法大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310171687.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水产养殖用水质改善装置
- 下一篇:一种锆氧化物及其制备方法