[发明专利]一种简历结构化处理方法在审
申请号: | 201811152110.4 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109271479A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 林巧彬;伍林斌;孔令贤;何正;苏祖军;郭洋;范金庆;杨土华;林煜斌 | 申请(专利权)人: | 广东润弘科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06K9/00 |
代理公司: | 广州圣理华知识产权代理有限公司 44302 | 代理人: | 顿海舟;李唐明 |
地址: | 510000 广东省广州市天河区珠江*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种简历结构化处理方法,该方法以计算机、移动智能设备以及与计算机或移动智能设备连接的服务为应用载体,服务器设有存储器和内存单元,存储器存储有版块标签匹配规则列表和信息匹配规则列表,通过把已有纸质简历的照片、简历图片或简历文档转换成电子简历,可以大大简化求职者简历填写的过程,完成纸质简历到电子简历的快速智能转换,免去了手写录入电子简历的繁琐,节约大量时间成本;同时在面对不同排版格式的简历时,能通过程序进行定位模块,准确识别,对于识别出的数据还可进行增删或修改,减轻求职者的负担。 | ||
搜索关键词: | 电子简历 移动智能设备 结构化处理 纸质 存储器存储 存储器 标签匹配 定位模块 简历文档 内存单元 排版格式 时间成本 信息匹配 应用载体 智能转换 计算机 版块 手写 录入 服务器 节约 转换 服务 图片 | ||
【主权项】:
1.一种简历结构化处理方法,该方法以计算机、移动智能设备以及与计算机或移动智能设备连接的服务器为应用载体,其特征在于,所述服务器设有存储器和内存单元,所述存储器存储有版块标签匹配规则列表和信息匹配规则列表,其中,所述版块标签匹配规则列表中的每个版块标签均设有版块标题,所述信息匹配规则列表包括若干个板块和若干信息项,每个版块与所述版块标签匹配规则列表中的版块标签一一对应,每个信息项均与所述的某一版块关联且每个信息项均关联有信息匹配规则,该方法包括以下步骤:S1:源文件识别:所述计算机或移动智能设备把源文件录入到所述服务器中进行识别,识别出源文件的文字内容数据;S2:文字预处理:所述服务器对识别到的文字内容数据进行逐项提取,生成文本集合并存储在存储器中,其中,所述文本集合包括若干个文本单元,所述文本单元均设有排列序号,所述排列序号根据所述文本单元在文本中的出现顺序生成,且提取时对识别到的文字进行去重处理,去掉文字内容中的乱码、空白行、空白段落以及重复段落;S3:在存储器中调取版块标签匹配规则列表并放入内存单元;S4:标记版块标签:按顺序在存储器中调取一个文本单元并与所述的版块标签匹配规则列表进行逐条比对;若文本单元与正在比对的某一版块标签匹配规则相匹配,则对该文本单元进行信息关联,将其关联匹配到的版块标签并进行标记;若文本单元不存在匹配的版块标签匹配规则,则不对该文本单元进行操作;重复步骤S4直至完成对所有文本单元的匹配;S5:版块标签去重:调取所述文本集合中所有标记了标签的文本单元,并判断是否存在重复标记的版块标签,若存在重复的版块标签,根据文本单元对应的排列序号筛选出最先出现的文本单元,对其余与版块标签重复关联的文本单元去除其关联关系及标记的版块标签,并进入步骤S6,若不存在重复关联的版块标签,进入步骤S6;S6:创建版块单元:按照所述信息匹配规则列表中版块的顺序调取一个版块标签,并判断所述文本集合中是否存在标记了所述版块标签的文本单元,若存在,调取标记了所述版块标签的文本单元,以所述版块标签对应的版块标题在结果集中创建一个版块单元,并把所述新创建的版块单元作为当前选定的版块单元,进入步骤S6;若不存在,进入步骤S10;S7:根据所述排列序号,把通过步骤S6调取的文本单元后面的一项或若干相文本单元放入内存单元中,直至遇到下一个关联有版块标签的文本单元或至文本集合的末项;再判断所述版块标签是否存在关联的信息项,若存在则进入步骤S8;若不存在,把内存单元中的文本单元的内容按顺序放入所述选定的版块单元中,并进入步骤S10;S8:按顺序调取所述信息匹配规则列表中对应版块下的一个信息项以及该信息项关联的信息项匹配规则,把所述信息项匹配规则与通过步骤S6放入内存单元中的文本单元进行逐条匹配,若所述文本单元中存在与所述信息项匹配规则匹配的内容,则根据所述信息项匹配规则生成信息项匹配结果,关联所述信息项与对应的信息项匹配结果,并把所述信息项与所述信息项匹配结果放进所述选定的版块单元,并进入步骤S9;若所述文本单元中不存在与所述信息项匹配规则匹配的内容,进入步骤S9;S9:判断所述信息匹配规则列表中对应版块下是否存在未进行匹配的信息项,若存在,进入步骤S8,若不存在,进入步骤S10;S10:判断所述信息匹配规则列表中是否存在未调取的版块标签,若存在,进入步骤S6;若不存在,进入步骤S11;S11:根据所述结果集生成结构化电子简历并存储在服务器中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东润弘科技有限公司,未经广东润弘科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811152110.4/,转载请声明来源钻瓜专利网。