[发明专利]一种基于半监督、双层多分类的诉请识别方法在审
申请号: | 202310171687.4 | 申请日: | 2023-02-27 |
公开(公告)号: | CN116304033A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 张凡凡;谭晓颖;李晓智;刘贤艳;孙晓锐;李娜娜;胡亚谦 | 申请(专利权)人: | 中国司法大数据研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/24;G06F18/214;G06F18/21 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100144 北京市石景*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 双层 分类 诉请 识别 方法 | ||
1.一种基于半监督、双层多分类的诉请识别方法,其步骤包括:
1)获取训练文本集:包括包含少量有标注诉讼请求数据的标注数据集和包含大量未标注诉讼请求数据的未标注数据集;
2)对所述标注数据集中各有标注诉讼请求数据进行数据增强后输入教师模型中,对教师模型进行训练并得到各标注类别的自适应阈值;利用训练后的教师模型对所述未标注数据集中的每一未标注诉讼请求数据进行分类,得到各未标注诉讼请求数据的类别并将其作为对应未标注诉讼请求数据的伪标签,得到伪标签标注数据;然后使用各类别的自适应阈值对对应伪标签标注数据进行筛选;
3)利用步骤2)筛选得到的伪标签标注数据和数据增强后的有标注诉讼请求数据训练学生模型,得到学生模型model1;
4)利用所述学生模型model1对测试集中的数据进行分类预测,根据分类预测结果计算每一类别的F1分数;如果一类别的F1分数低于设定阈值,则将该类别下所有分类预测结果错误样本的概率值排名前n个类别组成m个不同的n分类任务,通过m个n分类任务训练多任务模型,得到多任务模型model2;
5)将所述学生模型model1和所述多任务模型model2串联组成双层模型model3;
6)将待分类的民事诉请文本输入所述模型model3中,得到该民事诉请文本中的诉讼请求类别。
2.根据权利要求1所述的方法,其特征在于,对所述标注数据集进行数据增强的方法包括:
21)对于所述标注数据集内每一有标注诉讼请求数据i,通过法律领域的命名实体识别模型提取该有标注诉讼请求数据i中的时间、地点、人名、金额;然后对提取到的时间做部分加减操作得到处理后的时间,利用法律领域已有的地点词库对所提取地点做对应替换得到处理后的地点,利用法律领域已有的人名库对提取的人名做对应替换得到处理后的人名,对提取到的金额做部分加减操作得到处理后的金额;
22)根据该有标注诉讼请求数据i中的标签词,查找法律领域现有同义词库中的同义词;
23)查找该有标注诉讼请求数据i中除时间、地点、人名、金额、标签词之外的词汇的同义词或近义词;
24)将步骤21~23)所得结果进行交叉组合,对该有标注诉讼请求数据i中对应的信息进行替换,得到有标注诉讼请求数据i的有标签增强数据。
3.根据权利要求2所述的方法,其特征在于,得到各标注类别的自适应阈值的方法为:利用有标注诉讼请求数据对教师模型进行多轮训练,利用每轮训练后的教师模型对验证集中的样本进行分类,并计算每一分类中分类正确样本对应概率值的均值;取多轮训练后计算所得各类均值中的最大值作为对应类的自适应阈值。
4.根据权利要求1或2或3所述的方法,其特征在于,将待分类的民事诉请文本输入所述模型model3中,得到该民事诉请文本中的诉讼请求类别的方法为:首先通过所述学生模型model1对该民事诉请文本进行分类,若所输出类别属于layer1中的类别,则输出分类结果;否则将所述学生模型model1对该民事诉请文本的分类结果中概率值排名前n个类别组成m个不同的n分类任务,输入所述多任务模型model2,得到该民事诉请文本中的诉讼请求类别;其中,layer1中的类别为所述学生模型model1在测试集分类预测结果中的单类F1分数大于设定阈值的类别。
5.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至4任一所述方法中各步骤的指令。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国司法大数据研究院有限公司,未经中国司法大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310171687.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水产养殖用水质改善装置
- 下一篇:一种锆氧化物及其制备方法