[发明专利]一种谩骂评论的检测方法及系统在审
申请号: | 202210244932.5 | 申请日: | 2022-03-14 |
公开(公告)号: | CN114580397A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 张磊 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F40/126;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 董骁毅;周永君 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 谩骂 评论 检测 方法 系统 | ||
本申请提供的一种谩骂评论的检测方法及系统,涉及人工智能领域和语言处理技术领域,选择多层次向量表示,并选择了参数已经在大量词库中进行最优化的二次预训练模型BERT,对评论进行编码处理。既能保证编码器能充分表示最终的语义表示,还能进一步提高检测模型的准确率和召回率。本发明充分结合策略检测与算法检测的优点,并通过两者的巧妙结合,降低人工成本,在最少算力的前提下,最大限度的保证了模型检测的准确性和有效性。
技术领域
本申请涉及人工智能领域和语言处理技术领域,具体涉及一种谩骂评论的检测方法及系统。
背景技术
关键词过滤的方式虽然能在一定程度上拦截部分谩骂评论,但存在两大问题:当谩骂词汇表的内容较少时,会导致关键词的覆盖度不够,从而导致检测模型的召回率下降;当谩骂词汇表的内容较丰富时,也就意味着会收录很多与谩骂词汇沾边的词,导致只要命中了谩骂词汇表中的内容的评论都会被过滤掉,从而导致模型检测的准确率下降。此外,谩骂词汇表的构建也存在浪费人力、特征选取效率低下的缺点。神经网络分类模型虽然在数据集的训练上效果良好,但发现当测试的数据集在模型表征上的效果存在误差时,会导致最终的检测模型准确率低下。
基于上述分析,提出一种能有效对谩骂评论检测的模型就显得尤为重要。
发明内容
针对现存的谩骂评论检测模型所存在的缺点,结合关键词过滤策略与神经网络算法的优点,本发明提出了一种谩骂评论的检测方法及系统,涉及人工智能领域和语言处理技术领域。本发明分别利用字级别和词级别的语义表示,对底层模型进行多层次建模,从而挖掘文本的深度特征,有效的提升了互联网谩骂评论的准确性,降低了人工提取特征的成本与后期谩骂词汇表的维护与更新成本。
为解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种谩骂评论的检测方法,包括:
获取待检测评论文本;
对所述待检测评论文本进行过滤;
将过滤后的待检测评论文本输入至预设的谩骂评论检测模型,得到待检测评论文本的检测结果;
其中,所述谩骂评论检测模型是通过多个历史评论文本对应的词向量和字向量训练形成的。
进一步地,在将待检测评论文本输入至预设的谩骂评论检测模型之前,还包括:
根据预设的最大长度对待检测评论文本进行截断,得到多个待检测词汇;
根据预设的谩骂词汇表对所述多个待检测词汇进行初步检测;
若所述多个待检测词汇中的至少一个词汇与所述谩骂词汇表中的谩骂词汇相匹配,则确定初步检测的结果为待检测评论文本是谩骂评论;
相对应地,所述对所述待检测评论文本进行过滤,具体为:
将初步检测结果不是谩骂评论的待检测评论文本过滤出来;
所述将待检测评论文本输入至预设的谩骂评论检测模型,具体为:
将初步检测的结果为不是谩骂评论的待检测评论文本输入值预设的谩骂评论检测模型。
进一步地,所述根据预设的谩骂词汇表对所述多个待检测词汇进行初步检测,包括:
分别对每个所述待检测词汇中以及每个所述谩骂词汇进行词嵌入操作,得到每个待检测词汇对应的第一词向量以及每个谩骂词汇对应的第二词向量;
针对每个第一词向量,分别计算其与每个第二词向量的夹角余弦值;
相对应地,当所述夹角余弦值超过预设阈值时,认为所述第一词向量对应的待检测词汇与所述第二词向量对应的谩骂词汇相匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210244932.5/2.html,转载请声明来源钻瓜专利网。