[发明专利]一种基于Bi-LSTM的法律命名实体识别方法在审
申请号: | 202211386894.3 | 申请日: | 2022-11-07 |
公开(公告)号: | CN115688786A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 特斯法耶·雷加萨·阿杜格纳;陈璐;许文波;贾海涛;冷庚;罗欣;常乐 | 申请(专利权)人: | 电子科技大学长三角研究院(湖州) |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/214;G06N3/0442;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 313001 浙江省湖州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bi lstm 法律 命名 实体 识别 方法 | ||
本发明公开了一种基于Bi‑LSTM的法律命名实体识别方法,属于自然语言处理领域。本发明结合词向量训练和深度学习方法,对自然语言处理领域的命名实体识别任务进行了深度的改进和优化,使其兼顾准确性与模型复杂度地问题。本发明首先进行文本预处理,减少原始文本数据中大量干扰信息;然后对处理后的语料进行词向量训练,基于skip‑gram模型训练词向量。本发明提出利用Bi‑LSTM完成语料特征提取地方法,结合CRF限制标签间的关系以及进行结果校正,解决法律领域命名实体识别问题。
技术领域
本发明属于自然语言处理领域,涉及一种基于Bi-LSTM的法律命名实体识别方法。
背景技术
近年来,由于神经网络全面引入到自然语言处理,再加上大规模的数据和强有力的算力,自然语言处理发展到新的阶段。目前,自然语言处理已经广泛应用于客服、诊断、法律等场景,在这些应用场景的基础任务就是使计算机具备人类的语言理解能力,例如,听、说、读、写、译、问、答等。命名实体识别作为自然语言处理的基础任务,实体识别的是否准确将直接影响下游任务的效果,如文本分类、阅读理解等。命名实体识别技术也可以为法律工作者提供特定实体用以形成法律文书中相关条款。因此,如何提高命名实体识别准确性,成为了自然语言处理及相关应用领域的热点讨论问题。
随着司法数据公开化,领域数据共享不断推进,法律文书作为法律领域较常见的文本数据,具有数据大,种类多,易获取等特性。因此,选择海量法律文书作为原始数据集,通过本发明提出的命名实体识别算法,对司法领域信息化发展具有积极意义。
发明内容
为了更好地适用于法律领域命名实体识别及其领域特殊性,本发明将word2vec的方法与BiLSTM和CRF相结合,有效提高司法领域命名实体识别地效果。
本发明所采用的技术方案是:
步骤1:原始语料数据预处理
步骤2:基于word2vec完成词向量训练
步骤3:将词向量送入Bi-LSTM网络提取特征
步骤4:CRF层限制标签间的关系
与现有技术相比,本发明的有益效果是:
(1)相比传统的机器学习的命名实体识别算法,提高了模型地准确度和召回率;
(2)在保证模型精确度的情况下,减少模型复杂度。
附图说明
图1为:skip-gram模型结构图
图2为:样本构建的示例
图3为:LSTM网络结构图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本具体实施方式中,针对法律领域词典生成的方法包括下述处理步骤:
步骤1:原始语料数据预处理;
本发明使用的法律文本数据集来自法律文书网。对数据集进行清洗,去除噪声干扰,首先进行筛选,对信息不全的样本进行筛除处理。每篇法律文书只保留正文部分,时间、原告被告等格式性的内容不保留,正文部分去停用词,去特殊字符。数据的标注方式采用BIO的标注方式,B表示实体的开始,I表示属于实体的一部分,O表示不属于实体。
步骤2:基于word2vec完成词向量训练
1)统计训练语料中词语个数N,输入层的输入为一个词的one-hot向量表示。这个向量长度为N。假设这个词在词库中的ID为i,则输入向量的第i个分量为1,其余为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(湖州),未经电子科技大学长三角研究院(湖州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211386894.3/2.html,转载请声明来源钻瓜专利网。