[发明专利]一种文本审核方法、模型、设备及存储介质有效
申请号: | 202011439157.6 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112487149B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 班涛 | 申请(专利权)人: | 浙江诺诺网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/242;G06F18/241;G06F18/2415;G06N3/0464;G06N3/047;G06N3/048;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 巴翠昆 |
地址: | 310000 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 审核 方法 模型 设备 存储 介质 | ||
1.一种文本审核方法,其特征在于,包括:
获取敏感词表和训练集;其中,所述训练集包含训练文本以及对所述训练文本进行敏感类别标注后得到的标签信息;
构建基于机器学习算法的文本分类模型,并利用所述文本分类模型提取所述训练文本的特征信息,以得到目标语料向量;
基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量;
利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,以得到训练后的文本分类模型;
将待检测文本输入至所述训练后的文本分类模型,并基于所述训练后的文本分类模型输出的所述待检测文本的敏感类别及置信度,确定所述待检测文本的审核结果;
其中,所述基于所述训练后的文本分类模型的输出结果确定所述待检测文本的审核结果,包括:
获取所述待检测文本对应的敏感词匹配表;所述敏感词匹配表包括所述待检测文本以及基于所述敏感词表对所述待检测文本进行敏感词匹配后得到的敏感词;
根据所述训练后的文本分类模型输出的所述待检测文本的敏感类别、置信度及所述敏感词匹配表确定所述待检测文本的审核结果;
其中,利用所述文本分类模型提取所述训练文本的特征信息之前,还包括:
基于大小写转换、繁简体转换、全半角转换及停用词删除,对所述训练文本进行数据清洗。
2.根据权利要求1所述的文本审核方法,其特征在于,所述构建基于机器学习算法的文本分类模型,并利用所述文本分类模型提取所述训练文本的特征信息,以得到目标语料向量,包括:
利用激活函数为线性整流函数的文本卷积神经网络构建文本分类模型;
通过所述文本分类模型的嵌入层将所述训练文本映射为随机向量,以得到向量化文本;
利用卷积层及最大池化层提取所述向量化文本的特征信息,以得到目标语料向量。
3.根据权利要求2所述的文本审核方法,其特征在于,所述基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量,包括:
根据所述敏感词表,利用确定有穷自动机算法构建字典树;
利用所述字典树提取所述训练文本中的目标敏感词,并利用独热编码对所述目标敏感词进行处理,以得到与所述训练文本中的敏感词对应的目标词汇向量。
4.根据权利要求3所述的文本审核方法,其特征在于,所述基于所述敏感词表对所述训练文本进行敏感词匹配,以得到与所述训练文本中的敏感词对应的目标词汇向量之后,还包括:
判断所述目标词汇向量的维数与所述目标语料向量的维数是否一致,如果所述目标词汇向量的维数与所述目标语料向量的维数不一致,则通过加和或点积的方式将所述目标词汇向量的维数调整至与所述目标语料向量的维数一致。
5.根据权利要求4所述的文本审核方法,其特征在于,所述利用所述目标语料向量及所述目标词汇向量对所述文本分类模型进行训练,包括:
拼接所述目标语料向量和所述目标词汇向量,以得到拼接向量;
利用所述拼接向量对所述文本分类模型中的全连接层和分类器进行训练。
6.根据权利要求1至5任一项所述的文本审核方法,其特征在于,获取所述训练集包括:
利用基于所述敏感词表构建的字典树,对未进行标注的所述训练文本进行敏感词匹配,并根据匹配结果对相应的所述训练文本进行敏感类别标注,以得到包含所述训练文本及相应标签信息的所述训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江诺诺网络科技有限公司,未经浙江诺诺网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011439157.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种导航设备安装装置
- 下一篇:一种基于车联网新能源汽车用速度控制器