[发明专利]安全类别标签检测方法、装置、计算机设备及存储介质在审
申请号: | 202110762951.2 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113449109A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 吴智东 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06F40/216 |
代理公司: | 广州利能知识产权代理事务所(普通合伙) 44673 | 代理人: | 王增鑫 |
地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 安全 类别 标签 检测 方法 装置 计算机 设备 存储 介质 | ||
1.一种安全类别标签检测方法,其特征在于,包括如下步骤:
获取待检测安全类别标签的文本信息;
调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值,所述序列标注模型被预先训练至收敛状态;
调用文本分类模型为所述文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值,所述文本分类模型被预先训练至收敛状态;
将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合,获得所述文本信息分别属于各个安全类别标签的综合评估分值,确定综合评估分值最大者为所述文本信息的安全类别标签。
2.根据权利要求1所述的方法,其特征在于,
获取待检测安全类别标签的文本信息的步骤,包括:响应文本信息提交事件,提取其中的文本信息,该文本信息包含待发布广告的内容文本、待发布公告的内容文本或待发表文章的内容文本;
而在确定综合评估分值最大者为所述文本信息的安全类别标签之后,包括如下步骤:判断所述安全类别标签的安全属性,当其为非安全属性时,禁止发布该文本信息;当其为安全属性时,允许发布该文本信息。
3.根据权利要求1所述的方法,其特征在于,调用序列标注模型为所述文本信息标注文本信息中的关键词及关键词所属的安全类别标签,根据各安全类别标签所标注的关键词计算该文本信息分别属于各安全类别标签的分词评估分值,包括如下具体步骤:
将所述文本信息导入序列标注模型中进行基于语义特征的关键词提取,获得表征为语义向量的关键词序列;
所述序列标注模型基于所述语义向量对关键词序列进行标签预测,获得描述各个关键词相对应的安全类别标签的标签序列;
所述序列标注模型根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值。
4.根据权利要求3所述的方法,其特征在于,根据所述标签序列中属于非安全属性的安全类别标签所对应的关键词计算该文本信息分别属于各安全类别标签的分词评估分值的步骤中,每个安全类别标签相对应的分词评估分值的计算步骤如下:
确定该安全类别标签所标注的所有关键词各自的字数之和值;
确定所述文本信息的总字数;
以所述和值与所述总字数的比值作为该安全类别标签相对应的分词评估分值。
5.根据权利要求1所述的方法,其特征在于,调用文本分类模型为所述文本信息进行分类评估,获得该文本信息分别命中所述各个安全类别标签的全文评估分值,包括如下具体步骤:
将所述文本信息导入文本分类模型中进行基于语义特征提取,获得文本表征的语义向量;
所述文本分类模型以回归分类器对所述语义向量进行分类,获得整个语义向量命中所述各个安全类别标签的概率,作为各个安全类别标签相应的所述全文评估分值。
6.根据权利要求1所述的方法,其特征在于,将各个安全类别标签相对应的分词评估分值与全文评估分值进行线性融合的步骤中,所述分词评估分值与全文评估分值分别携带各自的权重,两个权重以同一预设的超参数体现彼此的相关性,以实现彼此的线性加权,以获得所述文本信息分别属于各个安全类别标签的综合评估分值。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述序列标注模型与所述文本分类模型基于同一文本预训练模型构造其语义特征提取器,用于实现所述基于语义特征的提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110762951.2/1.html,转载请声明来源钻瓜专利网。