[发明专利]一种BERT-BiLSTM-CRF命名实体检测模型及装置在审

专利信息
申请号: 202110631994.7 申请日: 2021-06-07
公开(公告)号: CN113204970A 公开(公告)日: 2021-08-03
发明(设计)人: 彭涛;王上;姚田龙;包铁;张雪松 申请(专利权)人: 吉林大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F40/58;G06F16/35;G06F16/383;G06N3/04;G06N3/08
代理公司: 北京华际知识产权代理有限公司 11676 代理人: 曹书华
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 bert bilstm crf 命名 实体 检测 模型 装置
【权利要求书】:

1.一种BERT-BiLSTM-CRF命名实体检测模型,包括:IDCNN-CRF命名实体识别模型和BERT-BiLSTM-CRF命名实体识别模型,其特征在于,

IDCNN-CRF命名实体识别模型架构如下:

Embdding层为词向量层,用于将输入数据处理成词向量再送入模型,采用分布式向量表示Word2Vec;

IDCNN层,用于将embedding层处理好的字向量或者词向量送入到IDCNN层,经过膨胀卷积神经网络的膨胀卷积操作,对输入的字向量重新计算,得到新的向量表示;

投影层,用于从IDCNN层神经网络计算出的向量表示进行线性转换,转换后的维度即为标签的维度,与标签的维度保持一致,再进过Softmax归一化处理,得到概率p,假设映射后的向量表示维度为m维,则m维字向量的概率表示组合得到向量,每一维向量可以看作每一类标签的概率,取概率最大的种类得到分类结果,即可完成命名实体识别任务;

CRF层,用于通过转移矩阵筛选出最优的结果反馈给用户;

BERT-BiLSTM-CRF命名实体识别模型架构如下:

BERT层,BERT的输入是由单字组成的句子,BERT对文本序列处理后获得每个字的向量表示之后,作为下一层BiLSTM的输入;

BiLSTM-CRF层,文本序列经过BERT处理得到对应BERT预训练词向量的向量表示,进入BiLSTM单元,计算BiLSTM的输出结果,送入CRF,计算最佳序列标签。

2.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述Embdding层通过训练大规模语料库,获得上下文字的依赖关系,将预训练好的100维维基百科词向量,加上20维的分词特征作为输入,送入下一层。

3.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述CRF层将深度学习得到的结果与统计学习模型相结合,利用CRF维持一个矩阵,转移标签之间的概率,把m维的标签转换为(m+2)*(m+2),多出的两个维度表示状态的开始和结束,通过这两个参数的变化学习标签转换的规律,修正无效标签。

4.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述BERT层中句子的开头用cls标记,用sep表示句子的分隔和结束,BERT的输入由词向量、段向量和位置向量三个部分组合而成。

5.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述BiLSTM-CRF层中BiLSTM的前向LSTM计算当前词及其左边词的语义表示,后向LSTM计算当前词及其右边词的语义表示,将得到的两个隐藏层的状态表示拼接起来,得到BiLSTM的输出结果。

6.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述算法实现主要公式为:

7.一种BERT-BiLSTM-CRF命名实体检测装置,其特征在于,包括:

信息抽取模块,用于抽取出实体信息和实体与实体之间的语义关系;

信息检索模块,所述信息抽取模块连接有信息检索模块,用于通过对关键词的查询,筛选出与之相关的信息,利用命名实体识别检索出关键词的实体类型,对文本信息分类,缩小检索范围;

机器翻译模块,所述信息检索模块连接有机器翻译模块,用于识别出翻译目标的实体信息,再利用翻译规则对词法进行分析;

问答系统,所述机器翻译模块连接有问答系统,问答系统通过匹配关键字和实体之间的关系搜索问题的答案,将结果输出反馈给用户。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110631994.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top