[发明专利]一种基于深度神经网络的中文简历解析方法在审

专利信息
申请号: 201811566222.4 申请日: 2018-12-20
公开(公告)号: CN109710930A 公开(公告)日: 2019-05-03
发明(设计)人: 陈毅;李秋俊;李湑;彭鑫;黄胜 申请(专利权)人: 重庆邮电大学
主分类号: G06F17/27 分类号: G06F17/27;G06N3/08;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 400065*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 解析 神经网络 字序列 神经网络模型 注意力机制 内部信息 特征向量 信息元 中文 建模 字根 文本 学习
【说明书】:

为了解决传统简历解析方法效率低、泛化能力差、成本高等缺点,提出了一种基于深度神经网络的中文简历解析方法。首先采用基于注意力机制的BLSTM神经网络模型对字根以及字序列进行建模,获得包含字内部信息以及字序列信息的特征向量;然后采用BLSTM‑CRF模型对特征进行学习,进而提取出文本简历中的特征,最终解析出简历中的信息元。

技术领域

发明涉及中文简历解析方法自然语言处理领域,特别涉及基于ABLSTM-CRF的中文简历解析方法

背景技术

现代信息技术和存储技术的快速发展以及互联网的迅速蔓延,形成了巨大的信息海洋,为人们提供了一个触手可及的知识来源,给我们的生活带来了极大的便利。基本上可以说,互联网正在以前所未有的速度改变着人们的生产生活方式。同时引起人们注意的是,在这随着信息不断汇聚而成的汪洋大海中,人们要准确高效地找到想要的信息就好像大海捞针一样,变得越来越耗时耗力。特别是每年的招聘季,企业HR在对海量纷繁复杂格式自由的简历文本进行筛选审查无疑是头疼的。此外证券市场监管机构要从招股书中的董监高简介信息中抽取简历信息用于市场监管,依靠传统人工抽取审查,或者是基于规则模板的抽取方法,显然这两种方法效率低且成本高。研发智能高效的简历解析技术从文本简历中抽取出人物的基本信息元对人物信息数据库的构建,社会行为预测,社会关系网络链接,人才管理,市场监管是极其重要的。与此同时,这个技术可以延伸至电子病历信息元的抽取、产品说明信息解析、微博信息抽取等医疗、社交领域。

发明内容

针对传统的简历解析主要有两种典型的方法,基于规则模版的简历解析和基于统计的简历解析。基于规则的模版的简历解析技术能够很好的把简历信息元抽取,准确率高,但是每个规则模版只能应用到同一模版的文本简历中;基于统计的信息抽取要求用户输入一定量的数据,然后通过规律、分类、聚类等人工只能和数据挖掘的方法进行解析,他减少了用户维护模版的代价。但是也要准备大量的数据,而且准确率一定程度上跟数据的选取和数量有关。

针对此缺点,提出利用ABLSTM-CRF深度神经网络模型来对简历进行解析,使得从大规模的复杂信息中抽取有用信息成为可能。主要分为三个步骤:

步骤101:构建基于深度神经网络的中文简历解析框架;

步骤102:构建基于注意力机制的BLSTM深度神经网络模型,对词进行向量表示;

步骤103:构建BLSTM-CRF解析中文简历。

优先地,所述步骤101构建基于深度学习的中文简历解析框架包括:

传统的简历解析方法主要是基于规则、基于统计、基于浅层神经网络,不足以达到大批量处理无规则的简历,因此本文采用深度学习框架来对简历进行解析;

本文主要研究的是采用深度神经网络对简历进行解析,该方法主要是利用深度神经网络具有主动学习特征的能力,进而获得相应的特征,然后根据特征对相应的信息元进行标注。

优先地,所述步骤102采用基于注意力机制的BLSTM深度神经网络模型框架获取相应特征表征,解决目标问题包括:基于深度学习模型的任务中,无论采用英文数据集还是中文数据集,对词进行向量表示这是必不可少的步骤,词表示的好坏将直接影响到模型对简历信息元标注结果的好坏,对于中文的简历解析中,很大程度上都选择采用的特征表征的方法是词向量表示方法,词向量的表示方法一般都用的是主流的Glove和Word2Vec工具,这样的特征表征只能学习有限的特征信息。

针对此缺陷,提出了使用基于注意力机制的BLSTM模型对词进行向量表示,利用BLSTM的门机制,采用BLSTM对中文文字的词根进行建模,然后将获得的包含词根信息的字向量再进行一次序列建模,使得词向量获得相应的字序列信息和词根信息,为了更好的进行一个向量表示,在BLSTM的串联的时候引入注意力机制(ABLSTM),更好对前向LSTM和后向LSTM的输入进行权重串联,获得一个更好的词向量表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811566222.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top