[发明专利]一种基于Bi-LSTM的法律命名实体识别方法在审
申请号: | 202211386894.3 | 申请日: | 2022-11-07 |
公开(公告)号: | CN115688786A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 特斯法耶·雷加萨·阿杜格纳;陈璐;许文波;贾海涛;冷庚;罗欣;常乐 | 申请(专利权)人: | 电子科技大学长三角研究院(湖州) |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/214;G06N3/0442;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 313001 浙江省湖州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bi lstm 法律 命名 实体 识别 方法 | ||
1.一种基于Bi-LSTM的法律命名实体识别方法,其特征在于,包括下列步骤:
步骤1:原始语料数据预处理;
步骤2:基于word2vec完成词向量训练;
步骤3:将词向量送入Bi-LSTM网络提取特征;
步骤4:CRF层限制标签间的关系。
2.根据权利要求1所述的基于Bi-LSTM的法律命名实体识别方法,其特征在于,所述步骤1中原始语料数据预处理的方法具体为:
本发明使用的法律文本数据集来自法律文书网;对数据集进行清洗,去除噪声干扰,首先进行筛选,对信息不全的样本进行筛除处理;每篇法律文书只保留正文部分,时间、原告被告等格式性的内容不保留,正文部分去停用词,去特殊字符;数据的标注方式采用BIO的标注方式,B表示实体的开始,I表示属于实体的一部分,O表示不属于实体。
3.根据权利要求2所述的基于Bi-LSTM的法律命名实体识别方法,其特征在于,所述步骤2中基于word2vec完成词向量训练的方法具体为:
1)统计训练语料中词语个数N,输入层的输入为一个词的one-hot向量表示;这个向量长度为N;假设这个词在词库中的ID为i,则输入向量的第i个分量为1,其余为0;
2)隐藏层的神经元个数即词向量的长度,参数是一个[N,M]的矩阵;经过隐藏层,实际上就是把N维的one-hot向量映射成了最终想要得到的M维的词向量;
3)输出层的神经元个数为总词数N,参数矩阵尺寸为[M,N];词向量经过矩阵计算后再加上softmax归一化,重新变为N维的向量,每一维对应词库中的一个词与输入的词共同出现在上下文中的概率;
4)实际训练时使用的模型可以采用CBOW和skip-gram,本发明训练语料较为充足,因此模型选择为skip-gram,即用一个词语作为输入,来预测它周围的上下文,在样本构建中窗口长度为2,中心词一个一个移动,遍历所有文本;每一次中心词的移动,最多会产生4对训练样本(input,label)。
4.根据权利要求3所述的基于Bi-LSTM的法律命名实体识别方法,其特征在于,所述步骤3中将词向量送入Bi-LSTM网络提取特征的方法具体为:
利用LSTM神经网络的超强非线性拟合能力,在训练时将samples通过高阶高纬度异度空间的非线性变换,学习出一个模型,然后再预测出一条指定的sample的每个token的label;将输入序列经过一个embeddig层转化为一个向量序列输入两个双向的LSTM单元,将每个时间序列的正向反向输出拼接,经过一个全连接层映射为一个维度为输出标签数量的一个向量,使用Softmax将输出归一化作为每种标签的概率。
5.根据权利要求4所述的基于Bi-LSTM的法律命名实体识别方法,其特征在于,所述步骤4中CRF层限制标签间的关系的方法具体为:
对Bi-LSTM输出的相邻标签概率加上约束条件;在序列标注任务中,考虑相邻标签之间的关系对于选择最佳的标签链是很有必要的;用CRF层替代传统的Softmax层发现标签之间的一个组合规律;
使用x={x1,x2,…,xn}表示词语的输入序列,让y={y1,y2,…,yn}表示相应词语对应的标签。Y(x)表示入集合中所有可能的标记序列,而p(y|x;W,b)表示给出特定输入x后,每个标记序列的概率,W和b分别代表权重转移矩阵和偏置转移矩阵在矩阵中的每一个元素都代表了两种状态的转移得分;公式如下
得到条件概率p(y|x;W,b)后,很容易就可以得到损失函数L(W,b);如此CRF参数就可以进行训练了,公式如下
使用对数最大条件似然估计的方法来进行参数更新;此时需要做的是找出合适的条件概率使得损失函数达到最大值;经过研究发现条件概率是最终结果必不可少的前提,借助条件概率,可以确定最终的标记序列;通常情况下,使用Viterbi算法来训练CRF模型并进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(湖州),未经电子科技大学长三角研究院(湖州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211386894.3/1.html,转载请声明来源钻瓜专利网。