[发明专利]网页广告数据处理方法、装置和电子设备在审
申请号: | 202111274349.0 | 申请日: | 2021-10-29 |
公开(公告)号: | CN114004643A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 徐峰 | 申请(专利权)人: | 浙江省民营经济发展中心(浙江省广告监测中心) |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/25 |
代理公司: | 北京唐颂永信知识产权代理有限公司 11755 | 代理人: | 刘伟 |
地址: | 310015 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 广告 数据处理 方法 装置 电子设备 | ||
1.一种网页广告数据处理方法,其特征在于,包括:
从互联网网站抓取网页广告数据;以及
对所述网页广告数据进行清洗以对所述网页广告中不符合预设要求的数据进行处理,包括:过滤掉所述网页广告数据中不完整的数据;基于语义理解模型对所述网页广告数据中的错误数据进行校正以生成校正后的正确数据;以及,删除广告主相同、广告发布者相同且广告媒体相同的所述网页广告数据。
2.根据权利要求1所述的网页广告数据处理方法,其中,从互联网网站抓取网页广告数据,包括:
使用爬虫工具抓取不同地域的电脑端和移动端上的所述互联网网站上的网页广告数据,其中,所述互联网网站包括注册地为辖区的门户网站、电商网站、视频网站、搜索引擎网站、自有网站、广告联盟、移动互联网站、手机应用和微信公众号。
3.根据权利要求2所述的网页广告数据处理方法,其中,所述网页广告数据包括广告基本信息、广告发布者信息、广告主信息和对应截图证据。
4.根据权利要求3所述的网页广告数据处理方法,其中,基于语义理解模型对所述网页广告数据中的错误数据进行校正以生成校正后的正确数据,包括:
对所述网页广告数据进行分词处理并将分词后的每个词划分为文本词和格式词两类;
通过所述语义理解模型的词嵌入单元分别将所述文本词和所述格式词转化为文本向量和格式向量;
将由所述文本向量和所述格式向量所组成的输入向量序列输入所述语义理解模型的掩码转换器单元以获得包含文本特征向量和格式特征向量的特征向量序列;
对所述分词后的每个词的位置进行编码以获得每个词的位置编码;
将所述每个词的位置编码输入所述掩码转换器单元以获得由位置向量组成的位置向量序列;
基于所述掩码转换器单元的掩码转换结构并通过似然最大化机制对所述特征向量序列和位置向量序列进行特征融合以获得融合特征向量;以及
将所述融合特征向量输入解码器以生成所述校正后的正确数据。
5.根据权利要求4所述的网页广告数据处理方法,其中,对所述分词后的每个词的位置进行编码以获得每个词的位置编码,包括:
对所述所述分词后的每个词的位置以如下公式进行正弦编码以获得所述每个词的位置编码,其中,所述正弦编码的公式为:
posi=sin(i/πi/size),其中i为各个词的初始位置,size为数据大小。
6.根据权利要求4所述的网页广告数据处理方法,其中,基于所述掩码转换器单元的掩码转换结构并通过似然最大化机制对所述特征向量序列和位置向量序列进行特征融合以获得融合特征向量,包括:
基于所述掩码转换器单元的掩码转换结构并通过似然最大化机制以如下公式对所述特征向量序列和位置向量序列进行特征融合以获得融合特征向量,其中,所述公式为:
其中V1i和V2i分别是所述特征向量序列和所述位置向量序列中的每组对应的向量,是V1i和V2i的均值向量,d是V1i与V2i之间的距离,且M表示在V1i或V2i的编码过程中是否存在掩码,且α是超参数。
7.根据权利要求6所述的网页广告数据处理方法,其中,如果存在掩码,则M取值x,否则取值-x。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江省民营经济发展中心(浙江省广告监测中心),未经浙江省民营经济发展中心(浙江省广告监测中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111274349.0/1.html,转载请声明来源钻瓜专利网。