[发明专利]基于领域本体库的工作简历结构化解析方法及系统在审
申请号: | 202211200761.2 | 申请日: | 2022-09-29 |
公开(公告)号: | CN115510844A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 陈通;李成梁;谭伟娜;王瑞霜;李扬;于杨;展一鸣;纪丽萍 | 申请(专利权)人: | 山东亿云信息技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 王雪 |
地址: | 250014 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 本体 工作 简历 结构 化解 方法 系统 | ||
本发明属于简历解析领域,提供了一种基于领域本体库的工作简历结构化解析方法及系统,包括获取工作简历数据,提取括号文本内容并进行筛选,得到待处理语句集合;以拆分标志符为拆分依据,对待处理语句集合进行拆分并重组,得到修正后的待处理语句集合;基于修正后的待处理语句集合,根据时间、地址、工作单位以及工作职务的顺序进行实体提取;将提取到的时间实体、地址实体、工作单位实体以及职务实体进行汇总。本发明无需准备标准格式的训练集,对单位、职务等结构分情况考虑,根据结果优化先验标志符集合。
技术领域
本发明属于简历解析术领域,具体涉及一种基于领域本体库的工作简历结构化解析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
简历是求职者在面试时需要携带的必带物品,是求职者应聘的“敲门砖”,也是企业了解求职者过往经历的有力途径。简历是对个人基本信息、教育经历、工作经历的客观描述,求职者可以通过简历全面、细致地介绍自己;企业可以通过简历高效判断求职者是否符合岗位需求;科研院所可以通过简历提取求职者的个人特征,构建用户画像、知识图谱、复杂网络等人工智能相关课题,解决向人才推荐招聘企业、向企业推荐求职人才、挖掘企业/人才间的潜在关系等问题,但解决这些问题的关键,是如何从简历中提取出结构化的工作经历、教育经历等特征信息,即简历信息解析。
简历是一类特殊的大数据量、非结构化文本,既包含形式各异、重点不一的文字性描述,又有工作经历、教育经历等具有高度相似的表述结构。因此,符合一定标准格式约束的结构数据在给简历信息解析工作带来便利的同时,其语言组织灵活多变的特点又给解析工作带来挑战。
基于机器学习的简历解析方法虽然可以一定程度上减少人工成本,但过于依赖特征工程—需要人工制定标准结构的简历数据供机器学习模型学习;基于固定格式的解析方法识别率高,但是有很大的局限性;基于统计的方法过于依赖训练集的数量和质量。
发明内容
为了解决上述问题,本发明提出了一种基于领域本体库的工作简历结构化解析方法及系统,本发明通过先验知识总结简历撰写逻辑,建立包括工作单位标志符、二级单位标志符、职务标志符在内的领域本体库,无需人工过多干扰,通过自动化方法提取简历中的结构化信息。
根据一些实施例,本发明的第一方案提供了一种基于领域本体库的工作简历结构化解析方法,采用如下技术方案:
基于领域本体库的工作简历结构化解析方法,包括:
获取工作简历数据,提取括号文本内容并进行筛选,得到待处理语句集合;
以拆分标志符为拆分依据,对待处理语句集合进行拆分并重组,得到修正后的待处理语句集合;
基于修正后的待处理语句集合,根据时间、地址、工作单位以及工作职务的顺序进行实体提取;
将提取到的时间实体、地址实体、工作单位实体以及职务实体进行汇总。
进一步地,所述获取工作简历数据,提取括号文本内容并进行筛选,得到待处理语句集合,具体为:
基于栈结构提取工作简历数据的括号文本,得到括号文本集合;
以是否包含时间结构和括号文本的内容为筛选条件,对括号文本集合进行筛选,得到工作简历的待处理语句集合。
进一步地,所述基于栈结构提取工作简历数据的括号文本,得到括号文本集合,包括:
遍历工作简历数据字符串,声明栈操作字符串和出入栈标志;
若工作简历数据的字符不为括号,将当前字符更新到栈操作字符串中;
若工作简历数据的字符为左括号,入栈:出入栈标志执行加1操作、将当前字符更新到栈操作字符串中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东亿云信息技术有限公司,未经山东亿云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211200761.2/2.html,转载请声明来源钻瓜专利网。