[发明专利]文书多标签分类方法、装置、电子设备及存储介质在审
申请号: | 202011220204.8 | 申请日: | 2020-11-05 |
公开(公告)号: | CN112434157A | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 邵博 | 申请(专利权)人: | 平安直通咨询有限公司上海分公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/126;G06F40/284;G06Q50/18 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 200000 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文书 标签 分类 方法 装置 电子设备 存储 介质 | ||
本发明涉及数据处理技术,揭露一种文书多标签分类方法,包括:对原始文书集进行预处理,得到标准文书集并对其进行多标签处理,得到文书标签集,将标准文书集按照批次数进行划分,得到多个文书子集并输入至构建的原始文书多分类模型进行训练,计算所述训练得到的训练值集与文书标签集的误差值,在误差值大于预设的误差阈值,调整所述文书多分类模型的内部参数,直到误差值小于或等于误差阈值时,得到标准文书多分类模型,将待分类文书输入至标准文书多分类模型,得到多种分类结果。本发明还涉及区块链技术,所述原始文书集可以存储在区块链中。本发明还揭露一种文书分类装置、电子设备及存储介质。本发明可以提高文书分类的多样性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文书多标签分类方法、装置、电子设备及计算机可读存储介质。
背景技术
文书记载着人民法院的审理过程和结果,它是诉讼活动结构的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证,在案例审查过程中发挥着十分重要的作用。
大数据时代给我们提供了很多的便利,如果通过对案例的诉讼请求、辩称以及争议焦点等内容打上对应的标签作为特征之一,以供相似案例的检索使用,可以较为快速的查找相似案例的文书,提高办案人员的办案效率,缩短办案时间。
当前基于对文书进行分类有朴素贝叶斯分类法、支持向量机算法等,但这些方法的分类效果较差,无法有效利用到文书内的特征或者只是利用了少数特征,不仅造成特征浪费,而且导致对文书分类不够全面。
发明内容
本发明提供一种文书多标签分类方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决文书分类不全面的问题。
为实现上述目的,本发明提供的一种文书多标签分类方法,包括:
获取原始文书集,对所述原始文书集进行预处理,得到标准文书集;
对所述标准文书集进行多标签处理,得到文书标签集;
构建原始文书多分类模型;
将所述标准文书集按照预设的批次数进行划分,得到多个文书子集;
将多个所述文书子集输入至所述原始文书多分类模型进行训练,得到训练值集;
计算所述训练值集与所述文书标签集的差值,得到误差值;
在所述误差值大于预设的误差阈值时,调整原始文书多分类模型的内部参数,并返回至将所述标准文书集按照预设的批次数进行划分,得到多个文书子集的步骤,直至所述误差值小于或等于所述误差阈值时,得到标准文书多分类模型;
获取待分类文书,并将所述待分类文书输入至所述标准文书多分类模型,得到多种分类结果。
可选地,所述对所述原始文书集进行预处理,得到标准文书集,包括:
去除所述原始文书集中非文字部分,得到第一文书集;
对所述第一文书集进行分词,得到第二文书集;
去除所述第二文书训练集的停用词,得到标准文书集。
可选地,所述构建原始文书多分类模型,包括:
构建原始BERT模型;
在所述原始BERT模型内添加注意力机制,得到初级BERT模型;
利用预构建的全连接层连接所述初级BERT模型,得到所述原始文书多分类模型。
可选地,所述将多个所述文书子集输入至所述原始文书多分类模型进行训练,得到训练值集,包括:
利用所述原始文书多分类模型中的编码层对所述文书子集进行字节编码,得到原始字节编码集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安直通咨询有限公司上海分公司,未经平安直通咨询有限公司上海分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011220204.8/2.html,转载请声明来源钻瓜专利网。