[发明专利]简历解析方法、装置、电子设备和存储介质有效
申请号: | 201910973521.8 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110781658B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 罗强 | 申请(专利权)人: | 抖音视界有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/295;G06Q10/105 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 徐雅琴 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 简历 解析 方法 装置 电子设备 存储 介质 | ||
本公开提出一种简历解析方法、装置、电子设备和存储介质,其中,方法包括:通过预设命名实体识别算法对简历进行识别,获取多个候选核心实体;获取每一个候选核心实体对应的文本信息中的各个实体;根据每一个候选核心实体对应的文本信息中的各个实体对每一个候选核心实体对应的多个属性字段进行填充,生成与每一个候选核心实体对应的结构化数据;根据每一个候选核心实体对应的结构化数据生成与简历对应的简历内容。由此,解决了现有技术中简历解析的召回率不够高和准确率不高的技术问题,通过基于核心实体进行属性填充的方式对简历进行解析,使得简历解析的正确率、鲁棒性都大幅提升,且更易维护和更新。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种简历解析方法、装置、电子设备和存储介质。
背景技术
目前,简历解析时对工作经历、项目经历、教育经历提取的基本方法,是先进行命名实体识别出简历中出现的所有实体,再基于规则模板抽取工作经历、项目经历、教育经历信息中的相关字段形成一条经历。
然而,现有基于规则模板提取工作经历、项目经历、教育经历的方法存在一些问题,简历中对工作经历、项目经历、教育经历的表述形式千差万别,难以穷举出所有的规则模板,导致解析的召回率不够高;如果在工作经历、项目经历、教育经历的关键字段上下文添加一些说明文字都可能导致规则模板失效,从而影响解析召回率;使用规则模板进行匹配时,难以对不同的经历类型进行区分,导致解析准确率不高;随着规则模板的增加,维护和优化升级的难度和成本都会很大。
发明内容
本公开旨在至少在一定程度上解决上述相关技术中的技术问题之一。
为此,本公开的第一个目的在于提出一种简历解析方法,解决了现有技术中简历解析的召回率不够高和准确率不高的技术问题,通过基于核心实体进行属性填充的方式对简历进行解析,使得简历解析的正确率、鲁棒性都大幅提升,且更易维护和更新。
本公开的第二个目的在于提出一种简历解析装置。
本公开的第三个目的在于提出一种计算机设备。
本公开的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本公开第一方面实施例提出了一种简历解析方法,包括:
通过预设命名实体识别算法对简历进行识别,获取多个候选核心实体;
获取每一个候选核心实体对应的文本信息中的各个实体;
根据所述每一个候选核心实体对应的文本信息中的各个实体,对所述每一个候选核心实体对应的多个属性字段进行填充,生成与所述每一个候选核心实体对应的结构化数据;
根据所述每一个候选核心实体对应的结构化数据生成与所述简历对应的简历内容。
进一步地,在所述通过预设命名实体识别算法对简历进行识别,获取多个候选核心实体之前,所述方法还包括:
确定核心实体、以及所述核心实体对应的多个属性字段。
进一步地,核心实体为企业名称,所述多个属性字段为时间属性字段和职位属性字段;
根据所述每一个候选核心实体对应的文本信息中的各个实体对每一个候选核心实体对应的多个属性字段进行填充生成与所述每一个候选核心实体对应的结构化数据,包括:
若候选核心实体所在行中存在时间实体,且所述时间实体的个数为2个,则将所述时间实体填充到所述时间属性字段中;
若所述文本信息中存在职位实体,则将所述职位实体填充到所述职位属性字段;
根据所述候选核心实体、所述时间属性字段和所述职位属性字段生成与所述每一个候选核心实体对应的所述结构化数据。
进一步地,所述的方法,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界有限公司,未经抖音视界有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910973521.8/2.html,转载请声明来源钻瓜专利网。