[发明专利]一种个人简历数据编码及连续数值化方法在审
申请号: | 202110764281.8 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113435856A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 刘媛;印忠文;褚志海;张金磊;赵龙军;李响 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06Q10/10 | 分类号: | G06Q10/10;G06Q10/06;G06F16/215;G06F16/28;G06F16/29 |
代理公司: | 贵州派腾知识产权代理有限公司 52114 | 代理人: | 宋妍丽 |
地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 个人简历 数据 编码 连续 数值 方法 | ||
1.一种个人简历数据编码及连续数值化方法,其特征在于:包括以下步骤:
①简历数据获取及存储:进行数据存储表格设计并将获取的简历数据,按照各字段定义对应存入关系型数据库;
②数据脱敏脱密:对简历数据中的隐私数据进行脱敏脱密处理;
③简历数据质量分析:对简历数据的每一个字段进行数据统计分析,基于统计结果对数据质量进行评估分析;
④简历数据预处理:基于数据质量评估结果,对简历数据进行预处理;
⑤结构化数据连续数值化:对简历数据中的结构化数据进行编码或连续数值化;
⑥文本数据语义理解及连续数值化:对简历数据中的文本描述数据进行语义理解分析及关键语义抽取,并对抽取得到的文本描述数据关键语义进行编码和连续数值化;
⑦数据继承及组合:根据上述步骤,将获取的各种数据存入表格,形成处理结果表,再将简历数据中的数值数据直接继承到处理结果表中,与其他字段的处理结果进行组合,获取最终的简历数据编码和数值化结果。
2.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤①分为以下步骤:
(1.1)通过数据文件管理系统、数据拷贝、数据接口调用、合法爬虫爬取方式获取简历数据,并保留简历数据的原有结构;
(1.2)根据简历数据的构成,规划设计简历数据存储表格结构,从简历数据中提取人名、毕业院校数据,存入处理结果表格。
3.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤②分为以下步骤:
(2.1)通过具有唯一性的编码或加密方式,对简历数据中的人名数据进行编码;
(2.2)将简历数据中的隐私数据用其他字符进行替换。
4.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述隐私数据包括手机号码、电子邮箱、身份证号、就职公司;所述预处理包括对简历数据中的无效值、重复值、空值、异常值、错误编码文本进行处理。
5.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤③分为以下步骤:
(3.1)统计简历数据中各字段的数据总数、重复数据数量、缺失数据数量、无意义数据及数量、异常数据及数量;
(3.2)基于步骤(3.1)中的数据统计结果,从数据缺失率、无效数据百分占比、异常值情况、异常值百分占比的角度进行数据质量的评估分析,获取简历数据质量评估表。
6.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤④中的预处理步骤如下:
(4.1)对数据缺失率、异常值百分占比及无效数据百分占比超过阈值的字段进行标记;
(4.2)通过删除、取平均值、取中位数、取众数、随机取值的方法进行其余字段中空值、无效值、异常值的处理。
7.如权利要求1所述的个人简历数据编码及连续数值化方法,其特征在于:所述步骤⑤分为以下步骤:
(5.1)建立性别映射表,将性别中的男性、女性信息映射为连续的整数数字;建立包含党员、团员、群众的政治面貌映射表,将政治面貌映射为连续数字;建立包含博士、硕士、本科、专科的学历映射表,将学历数据映射为连续数字;
(5.2)对毕业院校、院系和专业数据进行编码和连续数值化;
(5.3)对居住城市、工作城市、期望城市数据进行编码和连续数值化;
(5.4)对于行业分类、岗位分类处理数据进行编码及连续数值化;
(5.5)对工作经历数据进行处理及连续数值化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110764281.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种口语考试系统及方法
- 下一篇:一种智能售餐点餐柜及售餐点餐方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置