[发明专利]敏感词分数检测方法、装置、电子设备及存储介质有效
申请号: | 201911329327.2 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111105788B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 李世杰;陈欢 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/26;G06F16/635;G06F16/735;G06F16/783 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 谢冬寒 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感 分数 检测 方法 装置 电子设备 存储 介质 | ||
1.一种敏感词分数检测方法,其特征在于,所述方法包括:
获取多个敏感词;
基于所述多个敏感词,生成不包含所述多个敏感词的至少一个负样本语句;
将所述至少一个负样本语句转换成音频信号,得到不包含敏感词的第一样本音频信号;
将所述至少一个负样本语句对应的第一样本音频信号,确定为至少一个第一样本数据;
基于所述多个敏感词,生成包含至少一个敏感词的至少一个正样本语句;
将所述至少一个正样本语句转换成音频信号,得到包含敏感词的第一样本音频信号;
将所述至少一个正样本语句对应的第一样本音频信号和第一样本音频信号中包含的至少一个敏感词,确定为至少一个第二样本数据;
以所述至少一个第一样本数据为负样本,所述至少一个第二样本数据为正样本,训练敏感词识别模型;
获取没有标记标签的至少一个第二样本音频信号;
通过当前训练的所述敏感词识别模型,对所述至少一个第二样本音频信号进行敏感词分数检测,得到每个第二样本音频信号中词语的敏感词分数;
将包含敏感词分数大于第一预设阈值的词语的第二样本音频信号确定为第三样本数据;
将包含的词语的敏感词分数均小于第二预设阈值的第二样本音频信号确定为第四样本数据;
以所述第三样本数据为正样本,所述第四样本数据为负样本,基于半监督学习的方式对所述敏感词识别模型进行强化训练;
获取待检测的音频信号;
对所述音频信号进行特征提取,得到所述音频信号的第一声学特征;
通过训练后的所述敏感词识别模型中的特征处理层,提取所述第一声学特征中的词语特征,得到多个词语特征,分别根据所述多个词语特征生成多个词语声学特征;
确定所述多个词语声学特征的敏感词分数,每个词语声学特征的敏感词分数指示所述词语声学特征对应的词语属于所述敏感词的概率值。
2.根据权利要求1所述的方法,其特征在于,所述确定所述多个词语声学特征的敏感词分数,包括:
通过所述敏感词识别模型中的敏感词分数确定层,确定每个词语声学特征的敏感词分数。
3.根据权利要求1所述的方法,其特征在于,所述对所述音频信号进行特征提取,得到所述音频信号的第一声学特征,包括:
对所述音频信号进行特征提取,得到所述音频信号的原始声学特征;
将所述原始声学特征转换为向量格式,得到第二声学特征;
通过所述敏感词识别模型中的声学转换网络对所述第二声学特征进行转换,得到所述第一声学特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911329327.2/1.html,转载请声明来源钻瓜专利网。