[发明专利]一种职位构图和自动聚类方法有效
申请号: | 201910100896.3 | 申请日: | 2019-01-31 |
公开(公告)号: | CN109829500B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 蔡毅;张建南;谢浩然 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F18/23213 | 分类号: | G06F18/23213;G06F18/15;G06F18/2323;G06F18/25;G06F16/901;G06Q10/1053 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 职位 构图 自动 方法 | ||
本发明公开了一种职位构图和自动聚类方法。此方法适用于大规模网络职位数据的分类。本发明首先预定义一套职位特征模板。然后从招聘网站中收集半结构化的职位样本数据,提取特征信息填充职位模板,并提取公司类型信息,同时利用网页链接信息构造职位网络。对职位网络采用随机游走采样得到样本路径,再利用语言模型训练节点的分布式表示。最后融合职位节点的分布式表示和结构化特征信息,采用K‑means算法进行聚类。
技术领域
本发明涉及机器学习技术领域,具体涉及一种职位构图和自动聚类方法。
背景技术
网页上每天都会发布无数职位信息。在多数网络招聘平台上,新职位会根据各自的标准被分类。以http://51job.com为例,新的职位信息被分类为行业类别和职能类别。然而,当求职者浏览不同招聘平台上的大量职位的时候,由于不存在一个统一的分类标准,导致求职者不能客观理性地比较来自不同平台的职位。一个能够提供根据统一分类标准对异源的职位分类的公开的系统不仅方便了求职者,也为就业和经济数据统计提供了一个珍贵的全局视野。
目前大多数有关职位信息处理的专利关于给求职者进行职位推荐。但是,进行职位聚类的技术暂时还有待开发。Feng XU的”A Method of Position Recommendation toJob Seekers and a Position Recommendation System”(专利号CN103294816A)对表示求职者和职位的胜任度的竞争力进行排序来进行推荐。Fei Wang的“Knowledge BasedPosition Recommendation System”(专利号CN104834668A)公开了一个利用求职者胜任度以及从社交媒体信息得到的求职者喜好来进行推荐的系统。
对职位进行统一聚类仍然是一个空白的领域。这个领域急需一种跨平台的职位聚类方法来满足求职者的需求。
发明内容
本发明的目的在于克服现有技术存在的上述不足,提供了一种职位构图和自动聚类方法。此方法适用于大规模网络职位数据的分类。
本发明的一种职位构图和自动聚类方法包括:首先预定义一套职位特征模板。然后从招聘网站中收集半结构化的职位样本数据,提取特征信息填充职位模板,并提取公司类型信息,同时利用网页链接信息构造职位网络。对职位网络采用随机游走采样得到样本路径,再利用语言模型训练节点的分布式表示。最后融合职位节点的分布式表示和特征模板上的特征信息,采用K-means算法进行聚类。
在一些实施方式中,预定义的一套职位特征模板,其中,模板的特征包括月薪、工作时长、工作经验、学历要求、英语水平要求、奖金水平、是否购买五险一金等。
在一些实施方式中,其中,从招聘网站中收集半结构化的职位样本数据,提取特征信息填充职位模板。首先利用网络爬虫获取职位网页数据,然后从获取的网页数据中提取与特征模板中的特征相对应的数值对特征模板进行填充。对获取的数据需要进行填充缺失值、去燥、标准化等等一系列预处理。有很多种可能的方法来填补缺失值,比如使用均值填充,使用最可能值来填充或者使用人工确定的值来填充等等。因为异源样本的职位的多样性,模板中的很多slot很可能是缺失的。因此,“unknown”值在数据集中是很普遍,这就使得“unknown”值具有统计意义。因此,对于可能的情况,简单的把缺失值标记为“unknown”。对于连续取值的属性,用人工定义的默认值填补缺失值。本发明使用两种方法来识别和去除异常点。这两种方法是箱型图和逻辑回归神经网络。箱型图是一种通过四分点描述连续的组数据的图形化的方法。坐落在下四分点以外1.5个IQR和上四分点以外1.5个IQR之间的区域以外的样本被视作异常点排除掉。余下的样本被用于训练一个逻辑回归神经网络。造成大于阈值的损失的样本会从数据集中移除。本发明使用z值标准化方法来标准化数据集。在统计学中,z值是一个有符号的标准差。这个标准差表示数据点偏离正在被观察和衡量的变量的均值的方向和程度。使用一个把输入映射到其z值的映射函数来处理数据值中的每一个样本的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910100896.3/2.html,转载请声明来源钻瓜专利网。