[发明专利]简历解析方法及装置有效
申请号: | 202010097758.7 | 申请日: | 2020-02-17 |
公开(公告)号: | CN111325031B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 罗强 | 申请(专利权)人: | 抖音视界有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/903;G06N20/00;G06N3/0464;G06N3/044;G06N3/08 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 徐雅琴 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 简历 解析 方法 装置 | ||
本公开提出一种简历解析方法及装置,其中方法包括:通过获取待解析的简历文本;从简历文本中抽取每个类目的一条目标内容;对目标内容的各个实体进行分析,生成每个类目的标准模板,其中标准模板包括每个类目的标准字符串模板、每个类目中与非锚点实体对应的实体类型的目标行偏移,同一类目的各个内容的锚点实体对应的实体类型相同,非锚点实体的实体类型与锚点实体的实体类型不同;根据每个类目的标准字符串模板、每个类目中与非锚点实体对应的实体类型的目标行偏移,对简历文本中每个类目的内容进行解析处理。由此,实现自动化生成的标准模板进行简历解析,提升了简历解析的准确率和召回率。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种简历解析方法及装置。
背景技术
简历解析是将非结构化或半结构化的简历文本转化为结构化的数据,在应聘跟踪系统(Application Tracking System,ATS)中有非常重要的应用,也是对简历进行进一步挖掘和分析的基础。
通常在进行简历解析时,会先使用命名实体识别技术识别简历中的学校名、公司名、时间名、职位名、专业名、学院名等实体名称或专有名词,再通过规则或模板抽取得到想要的结构化数据,如工作经历、教育经历、项目经历等。
然而,上述方式在进行实体识别时,不同的实体识别准确率不同,比如时间类的实体往往准确率会非常高,但公司、专业、职位、学校这些实体类型准确率可能会比较低,实体没有识别出来会影响后续基于规则或模板所抽取的结构化数据的准确率。此外,简历中可能出现的模板会非常多,难以穷举所有模板,后续维护升级也很困难。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开的第一个目的在于提出一种简历解析方法,用于解决现有技术中收集信息过程中信息的安全性和公开度难以同时满足的问题。
本公开的第二个目的在于提出一种简历解析装置。
本公开的第三个目的在于提出一种电子设备。
本公开的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本公开第一方面实施例提出了一种简历解析方法,包括:
获取待解析的简历文本;
从所述简历文本中抽取每个类目的一条目标内容,其中所述目标内容中的实体已确定其所属的实体类型,且所述目标内容包括归属于所述每个类目的全部实体类型的实体;
对所述目标内容的各个实体进行分析,生成每个类目的标准模板,其中所述标准模板包括每个类目的标准字符串模板、每个类目中与非锚点实体对应的实体类型的目标行偏移,同一类目的各个内容的锚点实体对应的实体类型相同,非锚点实体的实体类型与锚点实体的实体类型不同;
根据每个类目的所述标准字符串模板、每个类目中与非锚点实体对应的实体类型的目标行偏移,对所述简历文本中每个类目的内容进行解析处理。
在本公开的一个实施例中,所述对所述目标内容的各个实体进行分析,生成每个类目的标准模板包括:
确定所述目标内容中各个实体在所述简历文本中的行号;
按照行号从小到大的顺序,将各个行号对应的行内容进行拼接,生成所述目标内容对应的第一字符串;
根据所述目标内容中各个实体归属的实体类型,将所述第一字符串中对应的实体替换为对应的实体类型标识,生成每个类目的标准字符串模板,其中所述实体类型标识指示对应实体归属的实体类型。
在本公开的一个实施例中,所述对所述目标内容的各个实体进行分析,生成每个类目的标准模板包括:
将所述目标内容的各个实体划分为锚点实体和非锚点实体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于抖音视界有限公司,未经抖音视界有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010097758.7/2.html,转载请声明来源钻瓜专利网。