[发明专利]文档分类模型构建、训练、测试方法及模型构建系统有效
申请号: | 202110477900.5 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113177595B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 谢福进;孙亚东;王闻馨;王志海;喻波;魏力 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V30/418;G06V30/413;G06K9/62;G06Q40/02 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 杨爱平 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 分类 模型 构建 训练 测试 方法 系统 | ||
本发明实施例提供一种文档分类模型构建、训练、测试方法及模型构建系统,模型构建方法包括:向N个第一终端发送文档分类模型网络结构,N为大于或者等于1的整数;根据N个第一终端的排序顺序,依次向每个第一终端发送参考模型参数,并接收反馈的目标模型参数,服务器向排序首位的第一终端发送的参考模型参数由服务器构建,在N大于或者等于2时,除排序首位的第一终端,每个第一终端接收到的参考模型参数为前一个第一终端反馈的目标模型参数;根据文档分类模型网络结构和排序末位的第一终端反馈的目标模型参数,生成目标文档分类模型。本发明可以保证文档不出客户端边界,同时能完成模型训练,有效降低数据泄露风险。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种文档分类模型构建、训练、测试方法及模型构建系统。
背景技术
云计算、大数据、移动互联、物联网和人工智能等技术推动了社会的数字化,数据成为新型的生产要素,能够在流动、分享、加工和处理的过程中创造价值。然而海量数据的汇集在带来巨大价值的同时也面临着严重的安全风险,如何有效利用和保护数据成了网络安全的关注焦点。
为了有效利用和保护数据,可以对数据资产进行分类管理,而实现数据分类管理的前提是首先对数据资产进行分类,现有的数据分类技术包括:传统的正则表达式匹配的文档分类和基于智能模型的文档分类。而基于智能模型的文档分类由于具备智能化、快捷化等优点在实际应用中使用较多。
现有技术中,在基于智能模型进行文档分类时,需要训练智能文档分类模型。下面对非涉密环境下智能文档分类模型的训练方法进行介绍,在真实数据中挑选一定数量的数据集作为样本库,将样本库中的数据样本分为训练集,验证集和测试集,将训练集数据样本输入到智能文档分类模型,进行特征提取和分类训练,将验证集数据样本输入到智能文档分类模型,进行模型指标验证,并计算准确率(Accuracy),然后自动优化调整模型参数重新开始训练,直到准确率足够小(满足预设值)时,退出迭代,最后将测试集数据样本输入到智能文档分类模型,进行模型性能评估。
由于智能文档分类模型的准确率直接与生产环境真实数据相关,但是涉密环境中敏感文档分布在不同保密级别的终端上,不能集中收集利用,涉密环境中终端存储的敏感文档不能离开受保护边界,无法创建集中式样本库,导致无法构建文档分类模型。
由此可见,现有技术中在构建文档分类模型时,需要创建集中式样本库,存在数据收集操作繁琐以及涉密环境下无法构建文档分类模型的问题。
发明内容
本发明实施例提供了一种文档分类模型构建、训练、测试方法及模型构建系统,以解决现有技术中在构建文档分类模型时,需要创建集中式样本库,存在数据收集操作繁琐以及涉密环境下无法构建文档分类模型的问题。
第一方面,本发明实施例提供一种文档分类模型构建方法,应用于服务器,包括:
向N个第一终端分别发送文档分类模型网络结构,N为大于或者等于1的整数;
根据所述N个第一终端对应的排序顺序,依次向每个所述第一终端发送参考模型参数,并接收每个所述第一终端反馈的目标模型参数,其中,所述服务器向排序首位的所述第一终端发送的所述参考模型参数由所述服务器构建,在N大于或者等于2时,除排序首位的所述第一终端,每个所述第一终端接收到的所述参考模型参数为当前第一终端的前一个所述第一终端反馈的所述目标模型参数;
根据所述文档分类模型网络结构和排序末位的所述第一终端反馈的所述目标模型参数,生成目标文档分类模型;
其中,所述目标模型参数由所述第一终端将所述参考模型参数加载至所述文档分类模型网络结构生成参考模型后,通过本地文档训练所述参考模型得到。
第二方面,本发明实施例提供一种文档分类模型训练方法,应用于第一终端,包括:
接收服务器发送的文档分类模型网络结构和参考模型参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110477900.5/2.html,转载请声明来源钻瓜专利网。