[发明专利]黑产广告的检测方法、装置、服务器及存储介质有效

专利信息
申请号: 201910023513.7 申请日: 2019-01-10
公开(公告)号: CN110162620B 公开(公告)日: 2023-08-18
发明(设计)人: 张琦;金欢 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06F18/2415;G06F18/27;G06Q30/0241
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 张所明
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 广告 检测 方法 装置 服务器 存储 介质
【权利要求书】:

1.一种黑产广告的检测方法,其特征在于,所述方法包括:

获取待检测文本;

将所述待检测文本输入词语-向量word2vec模型,得到所述待检测文本中各个词语的词向量;

计算所述待检测文本中各个词语的词频-逆文档频率TF-IDF;

根据各个词语的所述词向量和所述TF-IDF,计算所述待检测文本对应的加权词向量,并将所述加权词向量确定为所述待检测文本的词特征,所述词特征用于表征文本在词语维度的特征;

获取所述待检测文本的句特征,所述句特征用于表征文本在语句维度的特征;

将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果;

根据所述分类结果确定所述待检测文本是否为黑产广告。

2.根据权利要求1所述的方法,其特征在于,所述根据各个词语的所述词向量和所述TF-IDF,计算所述待检测文本对应的加权词向量,包括:

对所述待检测文本中各个词语的所述TF-IDF进行回归处理,得到各个词语的词语权重,所述词语权重的取值介于0到1之间,且所述待检测文本中各个词语的词语权重之和为1;

根据各个词语的所述词向量和所述词语权重,加权计算所述待检测文本对应的所述加权词向量。

3.根据权利要求1所述的方法,其特征在于,所述计算所述待检测文本中各个词语的TF-IDF,包括:

获取文本集合,所述文本集合中包含在所述待检测文本之前预定时长内接收到的文本;

根据所述文本集合中的文本,计算所述待检测文本中各个词语的所述TF-IDF。

4.根据权利要求1至3任一所述的方法,其特征在于,所述获取所述待检测文本的句特征,包括:

将所述待检测文本输入文本-向量doc2vec模型,得到所述doc2vec模型输出的文本向量,所述文本向量用于表征所述待检测文本的句法结构特征;和/或,

将所述待检测文本输入隐狄利克雷分配LDA文本主题模型,得到所述LDA文本主题模型输出主题向量,所述主题向量用于表征所述待检测文本在各个预设文本主题上的概率分布情况;

将所述文本向量和/或所述主题向量确定为所述句特征。

5.根据权利要求1至3任一所述的方法,其特征在于,所述词特征和所述句特征采用向量表示;

所述将所述词特征和所述句特征输入黑产广告分类模型,得到所述黑产广告分类模型输出的分类结果,包括:

将所述词特征对应的向量以及所述句特征对应的向量连接,生成所述待检测文本对应的目标特征向量;

将所述目标特征向量输入所述黑产广告分类模型,得到所述分类结果,所述分类结果中包含正常文本以及黑产广告各自对应的概率,所述黑产广告分类模型基于极端梯度增强XGBoost模型和逻辑回归LR模型构建;

所述根据所述分类结果确定所述待检测文本是否为黑产广告,包括:

若所述分类结果中黑产广告对应的概率高于第一概率阈值,则确定所述待检测文本为黑产广告。

6.根据权利要求5所述的方法,其特征在于,所述根据所述分类结果确定所述待检测文本是否为黑产广告,还包括:

若所述分类结果中黑产广告对应的概率高于第二概率阈值,且低于所述第一概率阈值,则将所述待检测文本发送至人工检测平台,所述人工检测平台用于对所述待检测文本进行人工黑产广告检测;

接收所述人工检测平台发送的检测结果。

7.根据权利要求1至3任一所述的方法,其特征在于,所述获取待检测文本之后,所述方法还包括:

对所述待检测文本进行预处理,得到预处理后的所述待检测文本,预处理方式包括繁体转简体、全角转半角、提醒字段替换、表情符替换、链接替换、去停用词、去指定语言字符、去自定义特殊字符、大小写转换、分词和去空格中的至少一种。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910023513.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code