[发明专利]一种基于深度学习的简历解析方法和系统有效

专利信息
申请号: 202010728915.X 申请日: 2020-07-27
公开(公告)号: CN111737969B 公开(公告)日: 2020-12-08
发明(设计)人: 安永进;鲁林;唐晓阳;闫慧强 申请(专利权)人: 北森云计算有限公司
主分类号: G06F40/205 分类号: G06F40/205;G06F40/289;G06F16/35;G06F40/131;G06F40/232;G06N3/04
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 刘凯
地址: 610041 四川省成都市*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 简历 解析 方法 系统
【说明书】:

本发明涉及电数字数据处理技术领域,本发明公开了一种基于深度学习的简历解析方法和系统,该简历解析方法包括富文本提取、文本清洗、文本排序、语句切分、语句分类、区块识别、条目划分和区块内字段值提取步骤,并在此过程中结合NLP、OCR和命名实体识别等技术对简历特征进行建模和规模化的模型训练。本发明从文本提取阶段,就把样式、位置等信息作为和文本同等重要的信息一并提取返回,并在后续分句、区块和条目识别、类别映射等阶段融入样式信息,达到让解析器像人一样重点突出地阅读简历的目的,从而提升整体解析效果。

技术领域

本发明涉及电数字数据处理技术领域,尤其涉及一种基于深度学习的简历解析方法和系统。

背景技术

随着线上招聘的越来越流行,基于Html、Doc、Pdf、Eml等格式的简历占据了主流。由于后期人才筛选、匹配、大数据分析的要求,就需要从这些半结构化的文本形式简历中提取出常见的基本信息、求职意向、教育经历、工作经历、实习经历、技能等信息。一般把这个过程称为“简历解析”或简历信息抽取。

简历解析主要用在招聘场景中,包括将招聘网站推送到邮箱的简历标准化;应聘者直接发送给HR的简历;应聘者在招聘网站上传的文本简历自动填充到表单;各大公司单独的招聘门户在应聘者上传文本简历后自动解析填充表单;猎头推荐候选人时解析简历检查是否重复;以及其他需要从简历中提取标准化信息的场景。

要进行解析的简历文档经常来源广泛,格式各异。有些来自各大招聘网站推送到邮箱中的eml格式简历,有些是招聘专员邮箱中收到应聘者自己撰写的样式各异的Pdf、Doc等简历,还有些是拍照或扫描得到的Jpeg、Png等图片格式简历。简历解析的目的是从这些格式和样式各不相同的简历中提取出简历中常见的各种字段的内容,并保存到数据库或其他存储中。

简历解析主要可以分为两个阶段:简历文本提取和简历文本解析。

简历文本提取即从Pdf、Doc、Jpeg等格式中使用对应的类库或OCR等方法得到格式良好的简历文本。

简历文本解析即对提取到的简历文本经过切分、识别等过程填充到对应的简历字段的过程。以姓名的提取为例,姓名在简历中常见的书写习惯有:“姓名:张三”、“候选人姓名:张三”、“候选人:张三”、“张三男本科”等形式,经过简历解析后,对应姓名这个字段的值就是“张三”。

相关专利文献情况:

1、中国专利“CN109753909A 一种基于内容分块和BiLSTM模型的简历解析方法”通过获取简历样本,对常见的标题关键词进行整理;接着利用常见的标题在文本中的独特位置信息和字号信息进行简历内容块划分,并对结构化的键值对信息进行提取;同时需要利用BiLSTM模型对不同的自然文本进行实体标记训练;最后针对不同的内容块利用不同的模型对内容进行判断识别实体,提取输出自然文本描述中的关键实体信息内容。

该专利所述的方法在进行简历解析时,主要有以下一些问题:

1)提取简历文本直接通过文本转换方式得到,对于一些两栏或三栏布局的简历,读取的文本会出现各区域内容交错的问题,从而导致后续处理出现错误。

2)对于一些字号、加粗等特征不明显的,或者简历中没有标题特征的,进行内容分块会失败或效果较差。

3)利用实体识别模型只能提取有限的如公司、学校、职位等信息。对其他如行业、规模、部门、项目名称、离职原因等字段无法提取。

4)对其他项使用正则表达式的方式提取,存在简历项关键字多种多样,无法完全覆盖的问题;且过多的正则会导致性能较低,维护成本较高;而且一些如地址等字段难以通过正则提取。

5)对于工作教育等部分,使用时间信息作为划分点,则对于部分没有时间的简历或者时间不规范的简历,会出现划分错误的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北森云计算有限公司,未经北森云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010728915.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top