[发明专利]一种基于机器学习的简历信息抽取方法有效

申请号：	201910796584.0	申请日：	2019-08-27
公开（公告）号：	CN110705281B	公开（公告）日：	2022-12-20
发明（设计）人：	江永青;陈运文;桂洪冠;周明星;纪达麒;连明杰	申请（专利权）人：	达而观信息科技（上海）有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/205;G06F16/35
代理公司：	上海智力专利商标事务所(普通合伙) 31105	代理人：	周涛
地址：	201203 上海市浦东新区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于机器学习简历信息抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于机器学习的简历信息抽取方法，包括以下步骤：构建行业关键词库；根据多个样本简历和行业关键词库的数据构建简历向量模型；将待抽取简历处理成结构化字段和非结构化字段；从结构化字段中正则提取出个人基本信息；利用分类器预测待抽取简历所属行业；简历向量模型将非结构化数据与行业关键词进行匹配，生成待抽取简历的行业特征向量。本发明简历信息提取准确率高，且能够对不同格式、不同行业的简历信息进行提取，应用更加广泛。

技术领域

本发明涉及文本处理技术领域，尤其涉及一种基于机器学习的简历信息抽取方法。

背景技术

求职者在书写简历的时候，经常会使用各种形式的模板、结构，或者不同形式的书写风格，以较好地描写自己的履历，面试官也能够看到不同风格的丰富的求职者信息。但是对于简历匹配系统来说，数据处理非常繁琐，包括数据清洗、数据去重、字段抽取等，因为不同简历的风格样式各不相同，因此不同简历数据的处理也会异常复杂。

同时，由于简历的描述内容千差万别，且某些用户在其简历中未写明行业类别，目前简历信息抽取系统无法准确抽取出行业类别，且提取不同风格样式的简历时，提取结果的准确性很难得到保证。

发明内容

有鉴于此，本发明提供了一种基于机器学习的简历信息抽取方法，用以解决上述背景技术中存在的问题。

一种基于机器学习的简历信息抽取方法，具体包括以下步骤：

S1，构建行业关键词库，所述行业关键词库包括若干种行业以及每种行业对应的行业关键词列表；

S2，将多个样本简历数据输入word2vector模型进行训练和测试，生成简历向量模型；

S3，将待抽取简历预处理成结构化字段和非结构化字段；

S4，从所述结构化字段中正则提取出求职者的个人基本信息；