[发明专利]一种基于深度神经网络的中文简历解析方法在审
申请号: | 201811566222.4 | 申请日: | 2018-12-20 |
公开(公告)号: | CN109710930A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 陈毅;李秋俊;李湑;彭鑫;黄胜 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 解析 神经网络 字序列 神经网络模型 注意力机制 内部信息 特征向量 信息元 中文 建模 字根 文本 学习 | ||
1.一种基于深度神经网络的中文简历解析方法,其特征在于,包括以下步骤:
步骤101:构建基于深度神经网络的中文简历解析框架;
步骤102:构建ABLSTM深度神经网络模型,对词进行向量表示;
步骤103:构建BLSTM-CRF模型解析中文简历。
2.根据权利要求1所述的一种基于深度神经网络的中文简历解析方法,其特征在于,所述步骤101构建基于深度学习的中文简历解析框架包括:
传统的简历解析方法主要是基于规则、基于统计、基于浅层神经网络,不足以达到大批量处理无规则的简历,因此本文采用深度学习框架来对简历进行解析;
本文主要研究的是采用深度神经网络对简历进行解析,该方法主要是利用深度神经网络具有主动学习特征的能力,进而获得相应的特征,然后根据特征对相应的信息元进行标注。
3.根据权利要求1所述的一种基于深度神经网络的中文简历解析方法,其特征在于,所述步骤102采用基于ABLSTM深度神经网络模型框架获取相应特征表征,解决目标问题包括:基于深度学习模型的任务中,无论采用英文数据集还是中文数据集,对词进行向量表示这是必不可少的步骤,词表示的好坏将直接影响到模型对简历信息元标注结果的好坏,对于中文的简历解析中,很大程度上都选择采用的特征表征的方法是词向量表示方法,词向量的表示方法一般都用的是主流的Glove和Word2Vec工具,这样的特征表征只能学习有限的特征信息;
针对此缺陷,提出了使用ABLSTM模型对词进行向量表示,利用BLSTM的门机制,采用BLSTM对中文文字的词根进行建模,然后将获得的包含词根信息的字向量再进行一次序列建模,使得词向量获得相应的字序列信息和词根信息,为了更好的进行一个向量表示,在BLSTM的串联的时候引入注意力机制(ABLSTM),更好对前向LSTM和后向LSTM的输入进行权重串联,获得一个更好的词向量表示;
采用基于ABLSTM模型对词向量进行表示,主要分为两个步骤:
①数据集:提供训练数据集、验证数据集、测试数据集;
②ABLSTM:基于注意力机制的双向长短时记忆神经网络模型,基于注意力机制来对词根序列和字序列进行向量表示,获得一个更好的向量表示;
具体如下:
采用了一个新的词向量表示方法,即使用ABLSTM模型对向量进行表示,首先将词语进行分词,然后拆分成单个字,然后将字拆分成其象形词根,利用BLSTM对象形词根进行建模,获得包含字内部信息的字向量,然后再利用BLSTM对字进行建模,获得包含字序列信息的词向量,此方法可以更好的对词进行向量表示;
对于给定一个包含n个字的非结构化文本简历字序列:
Char=(char1,...,charn)
将序列进行词根拆分,然后输入到双向LSTM神经网络模型中,
利用BLSTM对词根进行建模,获得一个包含字内部信息的字向量,然后再利用双向LSTM的前向LSTM对字序列进行建模生成一个包含字序列以及字序列上文信息的向量表示CharFi,同理后向LSTM反向读取字序列,将字序列以及字序列的下文信息表示为CharBi,然后将CharFi和CharBi连接形成一个包含字序列以及上下文信息的词表示:
Wd=[CharFi:CharBi]
此表示方法获得了字序列与词语之间的关系,与主流的Stanford的Glove和Google的Word2Vec相比,此方法对模型性能具有一个显著的提升,此方法可应用于其他需词表示的深度神经网络模型中。
4.根据权利要求1所述的基于ABLSTM-CRF的中文简历解析方法,其特征在于,所述步骤103构建BLSTM-CRF解析中文简历,具体由两个主要步骤组成包括:由步骤102获得词向量表示、基于BLSTM-CRF模型对中文简历进行解析;
经过BLSTM对非结构化文本简历的字序列进行建模之后,获得一个包含字序列信息的中文词语序列:
Wd=(wd1,...,wdi)
将词序列输入到BLSTM神经网络中,利用BLSTM中的前向LSTM将词wdi及其上文信息表示为WordFi,同理利用后向LSTM将词wdi及其上文信息表示为WordBi,最终将BLSTM的前向LSTM输出结果和后向LSTM的输出结果级联起来形成一个新的特征表示ht=[WordFi:WordBi],ht直接作为特征来为每个输出yt做出独立的标记决策,此方法有效的将词及其上下文信息用向量表示,此方法有效的将词及其上下文信息用向量表示;
在本文的非结构化文本简历信息解析任务中,输出标签之间有一个非常强的依赖关系;例如:B-org.company标签的后面不能跟着I-gsp.company或除I-org.company以外的其他标签。因此为了建模标签的依赖关系,本文采用CRF来建模整个句子的输出标签;假定得到非结构化文本简历信息的输出目标序列(即对应的标签序列)为:
y=(y1,...,yn)
为了有效的获得非结构化文本简历信息的目标序列,模型的分值公式定义如下:
其中P表示的是双向LSTM的输出分值矩阵,其大小为n×k,k表示的是目标标签的数量,n表示词序列的长度。A表示的是转移分值矩阵;y0和yn+1分别表示的是一个序列的开始和结束的标志,因此A方阵的大小为k+2;
在所有简历信息的标签序列上,CRF生成目标序列y的概率为:
其中YX代表简历信息序列X对应的所有可能标签序列;
在训练过程中,为了获得简历信息正确的标签序列,将采用最大化正确标签序列的条件似然对数概率:
由上述的表述可以看出本文训练神经网络是为了尽可能输出非结构化简历信息有效的标签序列;因此如下公式给出的最大分值公式用于预测最合适的标签序列:
因为是对输出之间的相互作用进行建模因此采用动态规划的方法计算件似然对数概率公司中的求和以及最大分值公式中的最大后验序列y*;
最终获得中文简历中所需要关注的信息元的实体标签,然后根据信息元的实体标签,解析出相应的中文简历中所需要关注的信息元,根据规则处理成统一的格式对解析出来的简历信息元进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811566222.4/1.html,转载请声明来源钻瓜专利网。