[发明专利]企业分类模型智能构建方法、装置、设备及介质有效
申请号: | 202111077364.6 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113535964B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 谢翀;罗伟杰;陈永红;黄开梅 | 申请(专利权)人: | 深圳前海环融联易信息科技服务有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08;G06Q30/02;G06Q40/06 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业 分类 模型 智能 构建 方法 装置 设备 介质 | ||
1.一种企业分类模型智能构建方法,其特征在于,所述方法包括:
若接收到所输入的语料数据库,根据预置的文本处理规则对语料数据库中包含的语料样本进行转换处理,得到对应的样本特征序列;
根据所述样本特征序列生成与预置的数据集生成规则对应的多个训练数据集;
将每一所述训练数据集中的样本特征序列依次输入初始分类模型进行计算处理,以得到每一所述样本特征序列对应的模型输出信息;
根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整,以得到所述初始分类模型进行训练后的分类模型;其中,所述参数调整规则包括高置信加权损失值计算公式及梯度计算公式;
所述数据集生成规则包括样本数量,所述根据所述样本特征序列生成与预置的数据集生成规则对应的多个训练数据集,包括:
对与每一所述样本特征序列对应的目标分类标签进行统计,得到对应的标签统计信息;
随机获取与所述样本数量相等的所述样本特征序列组合为训练数据集;
所述参数调整规则还包括典型样本集合;所述根据预置的参数调整规则及所述每一所述训练数据集所包含样本特征序列的模型输出信息对所述初始分类模型中的参数值进行迭代调整,以得到所述初始分类模型进行训练后的分类模型,包括:
根据所述典型样本集合对一个所述训练数据集中样本特征序列进行分类统计,以得到与所述训练数据集对应的典型样本数及非典型样本数;
根据所述高置信加权损失值计算公式、所述标签统计信息、所述典型样本数及所述非典型样本数,对所述训练数据集中样本特征序列的模型输出信息及对应的目标分类标签进行加权计算,得到与每一所述样本特征序列对应的高置信加权损失值;
所述高置信加权损失值计算公式为:
;
其中,k即表示第k个行业类别,k∈[1,K],K即为所包含的行业类别总数,N即为语料数据库中语料样本的总数,Nk为所述标签统计信息中第k个行业类别所对应行业标签的语料样本数量,σ为输出层的 Sigmoid 激活函数,yk为目标分类标签,其中,yk取值为0或1,若样本特征序列的目标分类标签中包含与第k个行业类别对应的行业标签,则yk=1;若样本特征序列的目标分类标签中不包含与第k个行业类别对应的行业标签,则yk=0;lk为模型输出信息,lk取值范围为[0,1],Vk即为当前训练数据集的典型样本数;Uk即为当前训练数据集的非典型样本数;即为基于样本特征序列是否为典型样本所确定的参数值;
根据所述梯度计算公式、每一所述样本特征序列的高置信加权损失值及所述初始分类模型中每一参数对所述样本特征序列进行计算的计算值获取每一所述参数的更新值以迭代更新所述初始分类模型;
判断是否存在未进行训练的所述训练数据集;
若存在未进行训练的所述训练数据集,返回执行所述根据所述典型样本集合对一个所述训练数据集中样本特征序列进行分类统计,以得到与所述训练数据集对应的典型样本数及非典型样本数的步骤;
若不存在未进行训练的所述训练数据集,获取当前的初始分类模型确定为所述训练后的分类模型。
2.根据权利要求1所述的企业分类模型智能构建方法,其特征在于,所述文本处理规则包括无效字符集合及特征词库,所述根据预置的文本处理规则对语料数据库中包含的语料样本进行转换处理,得到对应的样本特征序列,包括:
根据所述无效字符集合对每一条所述语料样本包含的文本信息中的无效字符进行滤除,得到对应的有效文本信息;
根据所述特征词库对所述有效文本信息进行特征词转换,得到与每一条所述语料样本对应的样本特征序列。
3.根据权利要求1所述的企业分类模型智能构建方法,其特征在于,所述将每一所述训练数据集中的样本特征序列依次输入初始分类模型进行计算处理,以得到每一所述样本特征序列对应的模型输出信息,包括:
依次将所述样本特征序列输入所述初始分类模型的输入层;
通过所述初始分类模型中神经元之间的关联公式对所述样本特征序列进行关联计算,并从所述初始分类模型的输出层获取与所述样本特征序列对应的模型输出信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海环融联易信息科技服务有限公司,未经深圳前海环融联易信息科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111077364.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动打结机构
- 下一篇:芯片接口的测试方法、装置、计算机设备和存储介质