[发明专利]一种基于级联森林的虚假招聘信息检测方法有效
申请号: | 202111010334.3 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113704409B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 杨新凯;谢宁宁 | 申请(专利权)人: | 上海师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06N3/006 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 彭瑶 |
地址: | 200234 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 级联 森林 虚假 招聘 信息 检测 方法 | ||
1.一种基于级联森林的虚假招聘信息检测方法,其特征在于,包括下列步骤:
1)获取招聘数据,提取文本特征和非文本特征;
2)根据文本特征和非文本特征构建多维度特征样本,将多维度特征样本划分为训练集和测试集;
3)基于级联森林算法,构建虚假招聘信息检测模型;
4)对虚假招聘信息检测模型进行模型训练;
5)输入测试集数据至训练后的虚假招聘信息检测模型中,获取预测结果;
步骤1)中,所述招聘数据包括发布招聘职位的企业相关特征,招聘职位的相关特征以及招聘职位的类别标签;
步骤1)中,采用以下目标函数提取文本特征:
式中:w为目标词,c(w)为目标词的上下文,T为给定的招聘文本数据,LCBOW为招聘文本分词后所有词向量;通过计算招聘文本分词后所有词向量LCBOW的平均值,获取相同维度的招聘职位的文本语义特征FT;
步骤2)中,对提取的非文本特征进行数据预处理,将取值为类别文本的特征进行独热编码,取值为数值的特征归一化,获取非文本特征集FS,将非文本特征集FS与提取的文本特征集FT结合并进行标注,获取包含多维度特征向量的招聘样本数据S={F,L},其中多维度特征向量F={FT,FS},L为招聘职位的类别标签;
步骤3)中,构建虚假招聘信息检测模型的具体内容为:
31)将训练集数据输入级联森林;
32)自动增加级联森林层数;
33)判断级联森林三层内检测准确率没有提升,若是,则进行下一步,否则,再次执行步骤32);
34)停止增加级联森林,输出虚假招聘信息检测模型;
所述级联森林的每层结构包括完全随机森林和随机森林,所述完全随机森林中的每棵决策树随机选择一个信息增益最大的特征做节点分裂,直至每一个叶节点包含的实例属于同一个类;所述随机森林中的每棵决策树随机选择个特征子集,m表示输入特征的维度,随后选择信息增益最大的特征做节点分裂;每个随机森林的输出为一个类概率向量;
所述虚假招聘信息检测模型的具体训练步骤包括下列步骤:
41)从原始数据集中提取文本特征集FT和非文本特征集FS,构建包含多维度特征向量的招聘样本数据S;
42)将招聘样本数据S划分为训练集和测试集;
43)初始化每种随机森林的个数n_estimators和森林中决策树的个数n_trees;
44)计算特征的信息增益,并将特征排序,训练n_estimators个随机森林分类器,做K折交叉验证,计算准确率;
45)对森林中n_trees个决策树输出的类概率求均值,生成类概率向量;
46)将步骤45)生成的类概率向量与输入的多维度特征向量拼接,输入下一层进行训练;
47)重复步骤45)~步骤46),直至检测的准确率不再上升,停止训练;
对于招聘样本数据S中任一特征k,假定其有v个可取的取值{k1,k2,...,kv},第v个分支节点包含了S所有在k上取值为kv的样本,记为SV,则k的信息增益计算公式如下:
其中,Ent(.)表示信息熵,具体计算公式如下:
其中,L为招聘数据类标签,pi为第i类招聘样本所占的比例,利用同样的方式可计算Ent(SV)的信息增益。
2.根据权利要求1所述的基于级联森林的虚假招聘信息检测方法,其特征在于,所述类概率向量为二位类概率向量。
3.根据权利要求2所述的基于级联森林的虚假招聘信息检测方法,其特征在于,所述二位类概率向量xi的计算表达式为:
式中,i为招聘职位的类别,xij为类别为i招聘职位在j个决策树的类概率,n_trees为森林中决策树的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学,未经上海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111010334.3/1.html,转载请声明来源钻瓜专利网。