[发明专利]一种BERT-BiLSTM-CRF命名实体检测模型及装置在审
申请号: | 202110631994.7 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113204970A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 彭涛;王上;姚田龙;包铁;张雪松 | 申请(专利权)人: | 吉林大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/58;G06F16/35;G06F16/383;G06N3/04;G06N3/08 |
代理公司: | 北京华际知识产权代理有限公司 11676 | 代理人: | 曹书华 |
地址: | 130012 吉*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 bert bilstm crf 命名 实体 检测 模型 装置 | ||
1.一种BERT-BiLSTM-CRF命名实体检测模型,包括:IDCNN-CRF命名实体识别模型和BERT-BiLSTM-CRF命名实体识别模型,其特征在于,
IDCNN-CRF命名实体识别模型架构如下:
Embdding层为词向量层,用于将输入数据处理成词向量再送入模型,采用分布式向量表示Word2Vec;
IDCNN层,用于将embedding层处理好的字向量或者词向量送入到IDCNN层,经过膨胀卷积神经网络的膨胀卷积操作,对输入的字向量重新计算,得到新的向量表示;
投影层,用于从IDCNN层神经网络计算出的向量表示进行线性转换,转换后的维度即为标签的维度,与标签的维度保持一致,再进过Softmax归一化处理,得到概率p,假设映射后的向量表示维度为m维,则m维字向量的概率表示组合得到向量,每一维向量可以看作每一类标签的概率,取概率最大的种类得到分类结果,即可完成命名实体识别任务;
CRF层,用于通过转移矩阵筛选出最优的结果反馈给用户;
BERT-BiLSTM-CRF命名实体识别模型架构如下:
BERT层,BERT的输入是由单字组成的句子,BERT对文本序列处理后获得每个字的向量表示之后,作为下一层BiLSTM的输入;
BiLSTM-CRF层,文本序列经过BERT处理得到对应BERT预训练词向量的向量表示,进入BiLSTM单元,计算BiLSTM的输出结果,送入CRF,计算最佳序列标签。
2.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述Embdding层通过训练大规模语料库,获得上下文字的依赖关系,将预训练好的100维维基百科词向量,加上20维的分词特征作为输入,送入下一层。
3.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述CRF层将深度学习得到的结果与统计学习模型相结合,利用CRF维持一个矩阵,转移标签之间的概率,把m维的标签转换为(m+2)*(m+2),多出的两个维度表示状态的开始和结束,通过这两个参数的变化学习标签转换的规律,修正无效标签。
4.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述BERT层中句子的开头用cls标记,用sep表示句子的分隔和结束,BERT的输入由词向量、段向量和位置向量三个部分组合而成。
5.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述BiLSTM-CRF层中BiLSTM的前向LSTM计算当前词及其左边词的语义表示,后向LSTM计算当前词及其右边词的语义表示,将得到的两个隐藏层的状态表示拼接起来,得到BiLSTM的输出结果。
6.根据权利要求1所述的一种BERT-BiLSTM-CRF命名实体检测模型,其特征在于,所述算法实现主要公式为:
7.一种BERT-BiLSTM-CRF命名实体检测装置,其特征在于,包括:
信息抽取模块,用于抽取出实体信息和实体与实体之间的语义关系;
信息检索模块,所述信息抽取模块连接有信息检索模块,用于通过对关键词的查询,筛选出与之相关的信息,利用命名实体识别检索出关键词的实体类型,对文本信息分类,缩小检索范围;
机器翻译模块,所述信息检索模块连接有机器翻译模块,用于识别出翻译目标的实体信息,再利用翻译规则对词法进行分析;
问答系统,所述机器翻译模块连接有问答系统,问答系统通过匹配关键字和实体之间的关系搜索问题的答案,将结果输出反馈给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110631994.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高性能一体成型结构的教学小提琴
- 下一篇:一种固液冲压组合发动机