[发明专利]敏感词识别方法、装置、设备、存储介质及程序产品在审
申请号: | 202210064884.1 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114416925A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 翟永刚;刘海东 | 申请(专利权)人: | 广州市百果园网络科技有限公司;北京大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/126;G06F40/242;G06F40/295;G06N3/04;G06N3/08;G06N7/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 赵迎迎 |
地址: | 511402 广东省广州市番禺区市桥街兴泰路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 识别 方法 装置 设备 存储 介质 程序 产品 | ||
1.一种敏感词识别方法,其特征在于,所述方法包括:
基于预先生成的领域字典库,确定待识别文本的字词集合,所述字词集合中各字词包括头位置信息以及尾位置信息;
对所述字词集合中的各字词进行构字部件拆分,获得各字词对应的构字部件;
获取各字词对应的字词向量,以及,获取各字词的构字部件对应的构字部件向量;并基于各字词的所述字词向量以及所述构字部件向量生成所述字词的输入向量;
将所述字词集合中各字词的头位置信息、尾位置信息以及输入向量输入至预先生成的序列标注模型中,由所述序列标注模型基于所述头位置信息、所述尾位置信息以及所述输入向量,采用相对位置编码算法确定各输入向量的多维向量表示,并基于所述多维向量表示确定各字词的标注结果,其中,所述序列标注模型包括transformer编码器以及条件随机场解码器;
根据各字词的标注结果识别出敏感词。
2.根据权利要求1所述的方法,其特征在于,所述基于预先生成的领域字典库,确定待识别文本的字词集合,包括:
在预先生成的领域字典库中,采用匹配算法对所述待识别文本进行字词匹配,获得所述待识别文本的字词集合,其中,所述领域字典库包括当前领域常用的多个字词以及各字词对应的字词向量;
获取所述字词集合中各字词在所述待识别文本中的头位置信息以及尾位置信息;
所述获取各字词对应的字词向量,包括:
从所述领域字典库中获得匹配的字词对应的字词向量。
3.根据权利要求1或2所述的方法,其特征在于,所述获取各字词对应的字词向量,包括:
在预先生成的领域N元词典库中,查找各字词对应的N元字词向量,其中,所述领域N元词典库包括当前领域常用的多个字词以及各字词对应的N元字词向量。
4.根据权利要求1或2所述的方法,其特征在于,所述获获取各字词的构字部件对应的构字部件向量,包括:
将各字词对应的各构字部件输入至预先生成的构字部件网络模型中,并获取所述构字部件网络模型输出的各构字部件的构字部件向量。
5.根据权利要求1所述的方法,其特征在于,所述transformer编码器包括至少两个transformer编码组件,各所述transformer编码组件之间采用注意力残差进行残差连接;
所述注意力残差采用如下方式确定:
获取当前transformer编码组件的注意力分数矩阵;
获取当前transformer编码组件的上一层transformer编码组件的注意力分数矩阵;
根据当前transformer编码组件的注意力分数矩阵,以及,所述上一层transformer编码组件的注意力分数矩阵,确定当前transformer编码组件的目标注意力分数矩阵;
基于当前transformer编码组件的各输入向量组成的输入向量矩阵,确定值向量矩阵;
基于所述值向量矩阵以及所述目标注意力分数矩阵确定注意力残差。
6.根据权利要求5所述的方法,其特征在于,所述根据当前transformer编码组件的注意力分数矩阵,以及,所述上一层transformer编码组件的注意力分数矩阵,确定当前transformer编码组件的目标注意力分数矩阵,包括:
将指定模型参数的参数值作为注意力权重;
根据所述注意力权重,对当前transformer编码组件的注意力分数矩阵以及所述上一层transformer编码组件的注意力分数矩阵进行加权求和,得到当前transformer编码组件的目标注意力分数矩阵,其中,若当前transformer编码组件为第一层transformer编码组件,则将上一层transformer编码组件的注意力分数矩阵确定为0。
7.根据权利要求5或6所述的方法,其特征在于,所述获取当前transformer编码组件的注意力分数矩阵,包括:
根据各输入向量的多维向量表示,确定两两输入向量的注意力分数,生成注意力分数矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市百果园网络科技有限公司;北京大学,未经广州市百果园网络科技有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210064884.1/1.html,转载请声明来源钻瓜专利网。