[发明专利]中文命名实体识别模块、方法、装置及电子设备有效
申请号: | 202110892193.6 | 申请日: | 2021-08-04 |
公开(公告)号: | CN113743119B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 裴忠民;游乐圻;罗章凯 | 申请(专利权)人: | 中国人民解放军战略支援部队航天工程大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/045;G06N3/0442;G06N3/047;G06N3/048;G06N3/08 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 窦军雷 |
地址: | 101416 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 命名 实体 识别 模块 方法 装置 电子设备 | ||
本发明提供了一种中文命名实体识别模型、方法、装置及电子设备。包括:ALBERT层,通过ALBERT预训练模型获取字向量标记序列;BiLSTM层,用于将接收到的字向量标记序列通过BiLSTM模型输出样本的上下文特征信息,并学习上下文特征信息得到特征权重;自注意力层,用于接收BiLSTM层输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;CRF层,其与自注意力层连接,用于接收自注意力层输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局最优序列。该中文命名实体识别模块改善了现有技术中无法在不增加模型参数和训练时间的前提下,提高中文命名实体识别模型识别效果的问题。
技术领域
本发明涉及计算机技术领域,尤其是涉及一种中文命名实体识别模块、方法、装置及电子设备。
背景技术
现阶段中文命名实体识别模型中BERT BiLSTM-CRF是识别效果最好的模型,但是该模型存在着模型参数量大,训练时间长的缺点。针对这个问题,研究者提出了ALBERTBiLSTM-CRF模型,ALBERT BiLSTM-CRF模型有效削减了模型训练的参数和训练的时间,但是代价是模型的识别性能有所降低。
发明内容
本发明的目的在于提供一种中文命名实体识别模块、方法、装置及电子设备,该中文命名实体识别模块能够解决现有技术中无法在不增加模型参数和训练时间的前提下,提高中文命名实体识别模型识别效果的问题。
为了实现上述目的,本发明提供如下技术方案:
一种中文命名实体识别模型,包括:
ALBERT层,用于获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列;
BiLSTM层,其与所述ALBERT层连接,用于根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;
自注意力层,其与所述BiLSTM层连接,用于接收所述BiLSTM层输出的特征权重,明确学习句子中任意两个字符之间的依赖关系,寻找序列内部联系,并输出得分序列;
CRF层,其与所述自注意力层连接,用于接收所述自注意力层输出的得分序列,利用状态转移矩阵和相邻信息,并进行标签解码获得一个全局优序列。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述BiLSTM层具体用于:
标记模块,用于对所述样本预处理文本数据信息进行命名实体标记,并在样本预处理文本数据信息的句首和句尾分别插入CLS标记和SEP标记,得到带实体标记的样本预处理文本向量信息;
处理模块,其与所述标记模块连接,对带实体标记的所述样本预处理文本向量信息的语序信息进行编码处理,得到带实体标记和语序标记的样本向量信息;
训练模块,其与所述处理模块连接,根据所述带实体标记和语序标记的样本向量数据信息对ALBERT模型进行训练,当ALBERT模型损失函数稳定收敛时,得到ALBERT预训练模型,所述ALBERT预训练模型用于根据样本预处理文本数据信息得到字向量标记序列。
进一步地,所述自注意力层包括多头注意力机制,多头注意力机制的每个头用于分别独立计算注意力矩阵,将每个头的计算结果拼接,用于多维度捕捉样本的上下文特征信息。
一种中文命名实体识别方法,所述方法具体包括:
S101,通过ALBERT层获取样本预处理文本数据信息,根据样本预处理文本数据信息得到字向量标记序列;
S102,通过BiLSTM层根据所述字向量标记序列得到样本的上下文特征信息,并学习上下文特征信息得到特征权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队航天工程大学,未经中国人民解放军战略支援部队航天工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110892193.6/2.html,转载请声明来源钻瓜专利网。