[发明专利]简历信息提取方法、装置、计算机设备和存储介质在审
申请号: | 201811519041.6 | 申请日: | 2018-12-12 |
公开(公告)号: | CN109766438A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 郑子欧;刘媛源;张翔;于修铭;汪伟;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 提取信息 字段 候选类别 简历信息 计算机设备 存储介质 获取目标 简历文本 类别标签 文本 类别信息 目标提取 信息提取 语义分析 语义信息 大数据 高效性 归类 预设 分类 申请 | ||
本申请涉及大数据领域,提供了一种简历信息的提取方法、装置、计算机设备和存储介质。方法包括:获取待提取简历文本;根据语义分析对待提取简历文本进行处理,得到目标待提取文本,根据语义信息将目标待提取文本进行分类,得到各个类别信息对应的待处理字段,通过获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签,获取待提取信息标签,根据待提取信息标签从候选类别标签中获取目标类别标签,获取目标类别标签对应的目标待处理字段,根据待提取信息标签对目标待处理字段进行信息提取,得到目标提取信息,所述方法不通过直接编写大量关键字的方式提取信息,提高了简历信息提取的高效性和准确性。
技术领域
本申请涉及计算机技术领域,特别是涉及一种简历信息提取方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的飞速发展,我们往往需要面对海量的数据,并在海量的数据中筛选提取出有用的信息。目前,传统的信息提取方法是基于正则表达式,根据关键字编写正则表达式来提取信息,然而编写正则表达式需要大量阅读文本,不仅消耗大量人力,并且正则表达式之间也可能会存在矛盾冲突,导致所提取的信息不准确。
发明内容
基于此,有必要针对上述技术问题,提供高效且准确性高的简历信息提取方法、装置、计算机设备和存储介质。
一种简历信息提取方法,所述方法包括:
获取待提取简历文本,根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本;
根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段;
获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签;
获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签;
获取所述目标类别标签对应的目标待处理字段,根据所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息。
在其中一个实施例中,所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息包括:
根据所述待提取信息标签对所述目标待处理字段进行命名实体识别,得到目标识别字段;
根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息。
在其中一个实施例中,所述方法还包括:
获取整合信息标签,所述整合信息标签对应多个不同的子类别标签;
当所述子类别标签是所述候选类别标签中的标签时,获取所述子类别标签对应的待处理字段作为所述子类别标签对应的子类别字段;
当所述子类别标签不是所述候选类别标签中的标签时,根据所述子类别标签对所述各个类别信息对应的待处理字段进行筛选,得到所述子类别标签对应的子类别字段;
获取所述整合信息标签与所述多个不同的子类别标签的逻辑关系;
根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据所述逻辑关系对所述初步提取信息进行逻辑运算,得到所述整合信息标签对应的整合提取信息。
在其中一个实施例中,所述方法还包括:
获取筛选信息,所述筛选信息包括目标筛选特征和筛选类别标签,所述筛选类别标签是所述候选类别标签中的一个标签;
获取所述目标筛选特征对应的字段筛选信息;
获取所述筛选类别标签对应的待处理字段作为目标筛选字段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811519041.6/2.html,转载请声明来源钻瓜专利网。