[发明专利]一种基于级联森林的虚假招聘信息检测方法有效
申请号: | 202111010334.3 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113704409B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 杨新凯;谢宁宁 | 申请(专利权)人: | 上海师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06N3/006 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 彭瑶 |
地址: | 200234 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 级联 森林 虚假 招聘 信息 检测 方法 | ||
本发明涉及一种基于级联森林的虚假招聘信息检测方法,包括下列步骤:1)获取招聘数据,提取文本特征和非文本特征;2)根据文本特征和非文本特征构建多维度特征样本,将多维度特征样本划分为训练集和测试集;3)基于级联森林算法,构建虚假招聘信息检测模型;4)对虚假招聘信息检测模型进行模型训练;5)输入测试集至训练后的虚假招聘信息检测模型中,获取检测结果。与现有技术相比,本发明具有准确率高、无需大规模训练数据等优点。
技术领域
本发明涉及互联网技术领域,尤其是涉及一种基于级联森林的虚假招聘信息检测方法。
背景技术
虚假招聘预测,即招聘欺诈检测,是欺诈检测的一个分支。目前常用的欺诈检测研究方法有基于规则的方法和基于学习的方法。
基于规则的方法将不符合明确规则的结果归类为欺诈。例如:如果发布招聘职位的企业有公司简介,则认为这个招聘职位是真实职位,否则为虚假职位。这种基于规则的方法简单且在逻辑上很容易解释。但它们的缺点在于,如果检测的规则已知,则很容易被避免,并且研究人员难以制定明确的规则定义虚假职位预测的逻辑。
基于学习的方法克服了上述缺点,能够通过算法自动学习欺诈行为。机器学习算法应用在虚假招聘预测领域已经取得显著成果。Vidros.等从文本中提取多种特征训练机器学习分类器,其中随机森林的预测效果最好,准确率达89.5%。这篇文章同时公开了爱琴海就业诈骗数据集(Employment Scam Aegean Dataset,EMSCAD)。Mahbub.等为EMSCAD数据集添加了语义特征,使预测准确率、精确率、召回率均有显著提升。lal.等将决策树、随机森林、逻辑回归作为基分类器,采用投票技术构建集成模型,将预测准确率提升至95.4%。Alghamdi.等使用支持向量机进行特征选择,以提升随机森林的预测效果。Mehboob.等使用极端梯度提升(Extreme Gradient Boosting,XGBoost)的方法构建虚假招聘预测模型。王辛使用DBSCAN方法(Density-Based Spatial Clustering of Applications with Noise)和LOF方法(Local Outlier factor)识别虚假招聘职位,但查准率和查全率较低。上述文献多基于传统的机器学习方法识别虚假招聘职位,依赖人工提取特征,存在特征提取不充分,模型性能不佳等问题。近年来,随着深度神经网络在计算机视觉和自然语言处理领域展现出杰出的性能,研究人员尝试将神经网络算法用于虚假招聘预测领域。Jeongrae.等基于分层聚类的深度神经网络(hierarchical clusters-based deep neural networks,HC-DNN)构建虚假招聘检测模型,实验结果显示所提出的模型优于传统的机器学习模型。深度神经网络虽然在解决检测问题时取得了卓越的成果,但其解决问题的过程却难以解释,且需要大规模样本数据进行训练,训练周期长、超参数调整复杂。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于级联森林的虚假招聘信息检测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于级联森林的虚假招聘信息检测方法,该方法包括如下步骤:
S1:获取招聘数据,提取文本特征和非文本特征。所述招聘数据包括发布招聘职位的企业相关特征,招聘职位的相关特征以及招聘职位的类别标签。
采用以下目标函数提取文本特征:
LCBoW=∑(w,c)∈Tlog P(w∣c(w))
式中:w为目标词,c(w)为目标词的上下文,T为给定的招聘文本数据,LCBOW为招聘文本分词后所有词向量;通过计算招聘文本分词后所有词向量LCBOW的平均值,获取相同维度的招聘职位的文本语义特征FT。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学,未经上海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111010334.3/2.html,转载请声明来源钻瓜专利网。