[发明专利]命名实体识别方法和命名实体识别装置有效
申请号: | 202111336422.2 | 申请日: | 2021-11-12 |
公开(公告)号: | CN113779999B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 王潇茵;李瑞群;丁醒醒;杜婉茹;刘萱 | 申请(专利权)人: | 航天宏康智能科技(北京)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 王兆赓;苏银虹 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 装置 | ||
1.一种命名实体识别方法,其特征在于,所述命名实体识别方法适用于嵌套命名实体与非嵌套命名实体,并且所述命名实体识别方法包括:
获取文本数据;
基于预先训练的处理模型,获取所述文本数据中的每个字符的特征向量,将每个字符的特征向量映射为二元互斥标记,并将所有二元互斥标记组合为二维矩阵,其中,每个特征向量的元素的数量基于命名实体的类别的数量来确定,并且所述处理模型包括基于转换器的双向编码器语言表征的编码器模块和由采用sigmoid激活函数的全连接层实现的分类器模块,所述基于转换器的双向编码器语言表征的编码器模块被配置为获取所述文本数据中的每个字符的特征向量,所述分类器模块被配置为将每个字符的特征向量映射为二元互斥标记;
基于所述二维矩阵,识别所述文本数据中的各个命名实体,
其中,所述分类器模块基于sigmoid激活函数对每个字符的特征向量的映射结果与预定阈值的比较,将每个字符的特征向量映射为0或1,从而将每个字符的特征向量映射为二元互斥标记,其中,每个二元互斥标记为(2n+2)维向量,n表示命名实体的类别,每个二元互斥标记包括指示字符与命名实体无关的元素、指示字符位于命名实体中间位置的元素、指示字符位于第一类别至第n类别的命名实体开始位置的元素、指示字符位于第一类别至第n类别的命名实体结束位置的元素,
其中,基于所述二维矩阵,识别所述文本数据中的各个命名实体的步骤包括:通过对包括在所述二维矩阵中的各个二元互斥标记进行解码,来识别所述文本数据中的各个命名实体及其类别,
其中,通过对包括在所述二维矩阵中的各个二元互斥标记进行解码,来识别所述文本数据中的各个命名实体及其类别的步骤包括:
响应于指示字符与命名实体无关的元素为1,将相应的字符识别为非命名实体;
响应于指示字符位于命名实体中间位置的元素为1,将相应的字符识别为命名实体中间位置的字符;和/或,响应于指示字符位于第一类别至第n类别中的至少一个类别的命名实体开始位置的元素为1,将相应的字符识别为第一类别至第n类别中的所述至少一个类别的命名实体开始字符;和/或,响应于指示字符位于第一类别至第n类别中的至少一个类别的命名实体结束位置的元素为1,将相应的字符识别为第一类别至第n类别中的所述至少一个类别的命名实体结束字符;
将第i类别的命名实体开始字符、第i类别的命名实体结束字符以及二者之间的命名实体中间位置的字符识别为第i类别的命名实体,其中,i为小于或等于n的正整数。
2.如权利要求1所述的命名实体识别方法,其特征在于,所述处理模型通过如下步骤进行训练:
将样本文本数据输入到所述处理模型,其中,所述基于转换器的双向编码器语言表征的编码器模块获取所述样本文本数据中的每个字符的特征向量,所述分类器模块基于sigmoid激活函数对每个字符的特征向量进行映射;
基于映射结果和预设的参考映射结果构建二分类交叉熵损失函数;
通过根据所述二分类交叉熵损失函数调整所述基于转换器的双向编码器语言表征的编码器模块与所述分类器模块的参数,来对所述处理模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天宏康智能科技(北京)有限公司,未经航天宏康智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111336422.2/1.html,转载请声明来源钻瓜专利网。