[发明专利]黑产广告的检测方法、装置、服务器及存储介质有效
申请号: | 201910023513.7 | 申请日: | 2019-01-10 |
公开(公告)号: | CN110162620B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 张琦;金欢 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06F18/2415;G06F18/27;G06Q30/0241 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 广告 检测 方法 装置 服务器 存储 介质 | ||
本申请公开了一种黑产广告的检测方法、装置、服务器及存储介质,属于信息安全领域。该方法包括:获取待检测文本;获取待检测文本的词特征,词特征用于表征文本在词语维度的特征,获取待检测文本的句特征,句特征用于表征文本在语句维度的特征;将词特征和句特征输入黑产广告分类模型,得到黑产广告分类模型输出的分类结果;根据分类结果确定待检测文本是否为黑产广告。由于词特征能够反映文本在词语维度的特征,而句特征能够反映文本在语句维度的特征,因此本申请实施例中综合词语维度和语句维度进行分类得到的分类结果更加准确,进而提高了黑产广告的检测准确率。
技术领域
本申请实施例涉及信息安全领域,尤其涉及一种黑产广告的检测方法、装置、服务器及存储介质。
背景技术
随着互联网技术的飞速发展,越来越多的与互联网相关的黑色产业(简称“黑产”)业务应用而生,常见的黑产业务包括游戏代练和虚拟货币代充。
通常情况下,不法分子通过在社交平台或游戏应用内发布黑产广告来吸引用户。为了识别出不法分子发布的黑产广告,以便后续对黑产广告进行屏蔽等处理,服务器会对用户发布的文本进行黑产广告检测。相关技术中,服务器中预先设置有黑产关键词表,当检测到用户发布的文本中包括黑产关键词表中的黑产关键词时,服务器即将该信息确定为黑产广告。
黑产广告检测的全面性与黑产关键词表直接相关,为了躲避黑产广告检测,不法分子不断更新黑产词汇,而黑产关键词表的更新存在滞后性,导致黑产广告的检测效果不佳。
发明内容
本申请实施例提供了一种黑产广告的检测方法、装置、服务器及存储介质,可以解决相关技术基于黑产关键词表进行黑产广告检测时,黑产广告的检测效果不佳的问题。所述技术方案如下:
一方面,提供了一种黑产广告的检测方法,所述方法包括:
获取待检测文本;
获取所述待检测文本的词特征,所述词特征用于表征文本在词语维度的特征;
获取所述待检测文本的句特征,所述句特征用于表征文本在语句维度的特征;
将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果;
根据所述分类结果确定所述待检测文本是否为黑产广告。
另一方面,提供了一种黑产广告分类模型的训练方法,其特征在于,所述方法包括:
获取样本语料,所述样本语料中包含未经过标注的第一样本语料以及经过标注的第二样本语料;
根据所述样本语料训练词特征提取模型和句特征提取模型,所述词特征提取模型用于提取语料在词语维度的词特征,所述句特征提取模型用于提取语料在语句维度的句特征;
根据所述词特征提取模型输出的样本词特征、所述句特征提取模型输出的样本句特征以及所述第二样本语料对应的标注信息,训练黑产广告分类模型,所述标注信息用于指示是否为黑产广告。
另一方面,提供了一种黑产广告的检测装置,所述装置包括:
文本获取模块,用于获取待检测文本;
第一特征获取模块,用于获取所述待检测文本的词特征,所述词特征用于表征文本在词语维度的特征;
第二特征获取模块,用于获取预所述待检测文本的句特征,所述句特征用于表征文本在语句维度的特征;
模型分类模块,用于将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果;
确定模块,用于根据所述分类结果确定所述待检测文本是否为黑产广告。
另一方面,提供了一种黑产广告分类模型的训练装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910023513.7/2.html,转载请声明来源钻瓜专利网。