[发明专利]一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置有效
申请号: | 201810369183.2 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108920445B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 莫益军;姚澜;杨帆 | 申请(专利权)人: | 华中科技大学鄂州工业技术研究院;华中科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 436000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bi lstm crf 模型 命名 实体 识别 方法 装置 | ||
1.一种基于Bi-LSTM-CRF模型的命名实体识别方法,其特征在于,所述方法包括:
对自然语言进行数据预处理,在训练情况下,将输入的第一自然语言进行分隔,获得第一字符序列;
在预测情况下,将输入的第二自然语言进行分隔,获得第二字符序列,根据比对所述第二字符序列与所述第一字符序列,将所述第二字符序列中不存在于所述第一字符序列的字符归为未登录字符;
根据所述第一字符序列中的各个字符做映射,获得向量矩阵,其中,所述向量矩阵包括所述各个字符对应的维度固定的向量;
将所述向量矩阵输入Bi- LSTM模块,分别对所述Bi- LSTM模块里的前向LSTM模块和后向LSTM模块进行从前向后、从后向前的向量序列非线性变换,且结合所述前向LSTM模块和后向LSTM模块的输出结果,其中所述输出结果为发射矩阵;
将Bi-LSTM模块的所述发射矩阵输入CRF层形成Bi-LSTM-CRF模型,所述Bi-LSTM-CRF模型对所述自然语言进行整句实体识别;
其中,根据交叉检验确定所述Bi-LSTM-CRF模型的超参数;
所述根据所述第一字符序列中的各个字符做映射,获得向量矩阵,还包括:
构建字符共现矩阵;
根据梯度下降法对所述共现矩阵进行矩阵分解,获得字符向量;
对所述字符做映射,获得特征矩阵,并根据未登录字符统一映射到未登录字符集的字向量;
将Bi-LSTM模块的所述发射矩阵输入CRF层形成Bi-LSTM-CRF模型,所述Bi-LSTM-CRF模型对所述自然语言进行整句实体识别,还包括:
根据对所述自然语言进行整句实体识别,获得第一矩阵;
根据所述第一矩阵,获得标签序列。
2.如权利要求1所述的方法,其特征在于,对自然语言进行数据预处理,在训练情况下,将输入的第一自然语言进行分隔,获得第一字符序列,还包括:
根据所述第一字符序列进行人工标记,获得标记数据;
将所述标记数据输入神经网络。
3.如权利要求2所述的方法,其特征在于,所述将所述向量矩阵输入Bi- LSTM模块,分别对所述Bi- LSTM模块里的前向LSTM模块和后向LSTM模块进行从前向后、从后向前的向量序列非线性变换,且结合所述前向LSTM模块和后向LSTM模块的输出结果,其中所述输出结果为发射矩阵,还包括:
确定所述神经网络的超参数;
在训练过程中,使用batch normalization方法加速训练;
将前向LSTM模块和后向LSTM模块加入Bi- LSTM模块,其中,在前向LSTM模块的每个时间点,输入所述自然语言的所述特征矩阵中的每一行,所述每个时间点的输出为一个向量和一个隐向量,其中所述隐向量输入下一个时间点的LSTM模块,和下一个时间点输入的特征矩阵中的每一行共同产生所述下一个时间点的输出。
4.如权利要求2所述的方法,其特征在于,所述交叉检验包括:
将所述标记数据分成训练数据集与测试数据集;
根据所述测试数据集对不同的参数集训练,获得一系列不同超参数的模型;
根据所述测试数据集评价所述一系列不同超参数的模型,确定最佳模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学鄂州工业技术研究院;华中科技大学,未经华中科技大学鄂州工业技术研究院;华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810369183.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种凹版印刷制版的印前排版方法
- 下一篇:一种面向特定领域的中文事件抽取方法