[发明专利]一种基于级联森林的虚假招聘信息检测方法有效

申请号：	202111010334.3	申请日：	2021-08-31
公开（公告）号：	CN113704409B	公开（公告）日：	2023-08-04
发明（设计）人：	杨新凯;谢宁宁	申请（专利权）人：	上海师范大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/284;G06N3/006
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	彭瑶
地址：	200234 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于级联森林虚假招聘信息检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于级联森林的虚假招聘信息检测方法，其特征在于，包括下列步骤：

1)获取招聘数据，提取文本特征和非文本特征；

2)根据文本特征和非文本特征构建多维度特征样本，将多维度特征样本划分为训练集和测试集；

3)基于级联森林算法，构建虚假招聘信息检测模型；

4)对虚假招聘信息检测模型进行模型训练；

5)输入测试集数据至训练后的虚假招聘信息检测模型中，获取预测结果；

步骤1)中，所述招聘数据包括发布招聘职位的企业相关特征，招聘职位的相关特征以及招聘职位的类别标签；

步骤1)中，采用以下目标函数提取文本特征：

式中：w为目标词，c(w)为目标词的上下文，T为给定的招聘文本数据，L_CBOW为招聘文本分词后所有词向量；通过计算招聘文本分词后所有词向量L_CBOW的平均值，获取相同维度的招聘职位的文本语义特征F_T；

步骤2)中，对提取的非文本特征进行数据预处理，将取值为类别文本的特征进行独热编码，取值为数值的特征归一化，获取非文本特征集F_S，将非文本特征集F_S与提取的文本特征集F_T结合并进行标注，获取包含多维度特征向量的招聘样本数据S＝{F，L}，其中多维度特征向量F＝{F_T，F_S}，L为招聘职位的类别标签；

步骤3)中，构建虚假招聘信息检测模型的具体内容为：

31)将训练集数据输入级联森林；

32)自动增加级联森林层数；

33)判断级联森林三层内检测准确率没有提升，若是，则进行下一步，否则，再次执行步骤32)；

34)停止增加级联森林，输出虚假招聘信息检测模型；

所述级联森林的每层结构包括完全随机森林和随机森林，所述完全随机森林中的每棵决策树随机选择一个信息增益最大的特征做节点分裂，直至每一个叶节点包含的实例属于同一个类；所述随机森林中的每棵决策树随机选择个特征子集，m表示输入特征的维度，随后选择信息增益最大的特征做节点分裂；每个随机森林的输出为一个类概率向量；

所述虚假招聘信息检测模型的具体训练步骤包括下列步骤：

41)从原始数据集中提取文本特征集F_T和非文本特征集F_S，构建包含多维度特征向量的招聘样本数据S；

42)将招聘样本数据S划分为训练集和测试集；

43)初始化每种随机森林的个数n_estimators和森林中决策树的个数n_trees；

44)计算特征的信息增益，并将特征排序，训练n_estimators个随机森林分类器，做K折交叉验证，计算准确率；

45)对森林中n_trees个决策树输出的类概率求均值，生成类概率向量；

46)将步骤45)生成的类概率向量与输入的多维度特征向量拼接，输入下一层进行训练；

47)重复步骤45)～步骤46)，直至检测的准确率不再上升，停止训练；

对于招聘样本数据S中任一特征k，假定其有v个可取的取值{k¹,k²,...,k^v}，第v个分支节点包含了S所有在k上取值为k^v的样本，记为S^V，则k的信息增益计算公式如下：

其中，Ent(.)表示信息熵，具体计算公式如下：

其中，L为招聘数据类标签，p_i为第i类招聘样本所占的比例，利用同样的方式可计算Ent(S^V)的信息增益。

2.根据权利要求1所述的基于级联森林的虚假招聘信息检测方法，其特征在于，所述类概率向量为二位类概率向量。