[发明专利]基于领域本体库的工作简历结构化解析方法及系统在审
申请号: | 202211200761.2 | 申请日: | 2022-09-29 |
公开(公告)号: | CN115510844A | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 陈通;李成梁;谭伟娜;王瑞霜;李扬;于杨;展一鸣;纪丽萍 | 申请(专利权)人: | 山东亿云信息技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 王雪 |
地址: | 250014 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 本体 工作 简历 结构 化解 方法 系统 | ||
1.基于领域本体库的工作简历结构化解析方法,其特征在于,包括:
获取工作简历数据,提取括号文本内容并进行筛选,得到待处理语句集合;
以拆分标志符为拆分依据,对待处理语句集合进行拆分并重组,得到修正后的待处理语句集合;
基于修正后的待处理语句集合,根据时间、地址、工作单位以及工作职务的顺序进行实体提取;
将提取到的时间实体、地址实体、工作单位实体以及职务实体进行汇总。
2.如权利要求1所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述获取工作简历数据,提取括号文本内容并进行筛选,得到待处理语句集合,具体为:
基于栈结构提取工作简历数据的括号文本,得到括号文本集合;
以是否包含时间结构和括号文本的内容为筛选条件,对括号文本集合进行筛选,得到工作简历的待处理语句集合。
3.如权利要求2所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述基于栈结构提取工作简历数据的括号文本,得到括号文本集合,包括:
遍历工作简历数据字符串,声明栈操作字符串和出入栈标志;
若工作简历数据的字符不为括号,将当前字符更新到栈操作字符串中;
若工作简历数据的字符为左括号,入栈:出入栈标志执行加1操作、将当前字符更新到栈操作字符串中;
若工作简历数据的字符为右括号且出入栈标志不等于1,入栈:出入栈标志执行减1操作、将当前字符更新到栈操作字符串中;
若工作简历数据的字符为右括号且出入栈标志等于1,出栈:提取栈操作字符串中括号内的文本数据、出入栈标志重置为0、栈操作字符串重置为空字符串;
工作简历数据遍历结束,得到工作简历中的所有括号文本,构成括号文本集合。
4.如权利要求2所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述筛选条件,具体为:
如果括号文本内容完全等于综合结构的,不予保留;其中,所述综合结构为:{主持工作,挂职,借调,兼任,(\d{4}[年\.]\d{1,2}[月]?).*当选.*,(\d{4}[年\.]\d{1,2}[月]?).*明确.*,(\d{4}[年\.]\d{1,2}[月]?).*批准.*};
如果括号文本含有时间结构的内容,作为一条新语句;反之,如果括号文本不含有时间结构的内容,给予保留。
5.如权利要求1所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述拆分标志符为:{“,”,“兼”}。
6.如权利要求1所述的基于领域本体库的工作简历结构化解析方法,其特征在于,所述基于修正后的待处理语句集合,根据时间、地址、工作单位以及工作职务的顺序进行实体提取,具体为:
根据每条修正后的待处理语句中存在的时间结构的数量确定开始时间和结束时间,得到时间实体;
根据每条修正后的待处理语句中的地址信息,确定地址实体;
遍历每条修正后的待处理语句中的工作标志符,识别工作单位名称,确定工作单位实体;
遍历每条修正后的待处理语句中的职务标志符,识别工作职务,确定工作职务实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东亿云信息技术有限公司,未经山东亿云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211200761.2/1.html,转载请声明来源钻瓜专利网。