[发明专利]一种基于网页特征的广告分类方法及装置有效
申请号: | 201110300130.3 | 申请日: | 2011-09-29 |
公开(公告)号: | CN102508859A | 公开(公告)日: | 2012-06-20 |
发明(设计)人: | 罗峰;黄苏支;李娜 | 申请(专利权)人: | 北京亿赞普网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 钟日红;孙明岩 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 特征 广告 分类 方法 装置 | ||
技术领域
本发明涉及网页分类、广告分类、迁移学习等领域,具体涉及利用网页分类数据对广告进行自动分类。
背景技术
网络分类广告是充分利用计算机网络的优势,对大规模的生活实用信息,按主题进行科学分类,并提供快速检索的一种广告形式。近来,网络分类广告已成为一种新的网络广告形式,其通过采用广告分类技术来为满足企事业单位和个人商户在互联网上发布各类产品和服务广告的需求,并为广大网民提供实用、丰富、真实的消费和商务信息资源。与传统媒体分类广告相比,网络分类广告容量大,表现形式多样化、立体化,可查询、收藏信息。
目前已有广告分类技术主要分为两类,一类是利用传统的文本分类方法;另一类是针对广告领域标注数据少的特点采用迁移学习的方法。传统文本分类方法:通过对广告样本手工标注得到训练集,利用机器学习分类模型进行训练,从而得到广告分类器;迁移学习方法:在网页等标注样本比较充足而广告的标注样本获取比较困难的情况下,将网页样本的特征空间向广告域空间或公共空间进行映射,在映射后特征空间上训练分类器,从而可以利用网页的标注样本对广告样本进行分类。
传统文本分类方法需要大量的广告标注样本,从而消耗大量的人力物力,且无法充分利用已标注过的丰富网页样本。迁移学习的方法可以比较好的利用现有网页样本资源,但往往忽视了网页之间的关联及网页与广告之间的关联。
传统的广告分类技术中,广告相关的描述通常比较短,相关关键词数目也比较少,导致其特征描述不充分,不利于广告的自动分类。同时,对广告的类别标注数据非常少,训练数据严重不足。
目前还没有一种能够克服传统技术中不足的广告分类的技术。
发明内容
为克服现有技术中的不足,本发明提供了一种利用网页的标注数据实现广告的自动分类的方法和装置。本发明通过利用广告样本与网页样本之间的关联关系来对广告进行自动分类,能够提高广告分类的效率和准确率。
为了解决上述技术问题,本发明提供了一种基于网页特征的广告分类方法,其特征在于,包括以下步骤:步骤A:从网页样本信息中提取网页特征信息,以及从广告样本信息中提取广告特征信息;步骤B:利用迁移学习方法将所述网页特征信息和广告特征信息映射到共同的特征空间,以得到映射到共同的特征空间的网页样本信息和广告样本信息;步骤C:基于映射到共同的特征空间后的网页样本信息和当前的训练集来训练分类器,根据训练后的分类器对广告样本信息进行分类以获得分类结果;步骤D:根据所述广告样本信息的历史投放和点击数据构建网页与广告之间的链接网络,使所述分类结果沿所述链接网络进行传播,以获得修正后的分类结果;步骤E:根据修正后的分类结果更新训练集。
进一步,该方法还包括,在所述步骤A中,从所述网页样本信息中的提取的所述网页特征信息的元素包括:网页的统计参数、网页的语言参数、词频、词频-逆文档频度、和/或连接访问参数;从所述广告样本信息中提取的所述广告特征信息的元素具体包括:广告主为广告投放所提供的竞价关键词、广告主为广告所提供的描述文本、广告的竞价、投放时间、投放区域、和/或广告本身的内容特征。
进一步,该方法还包括,在所述步骤B中,所述共同的特征空间为:通过使得在多个预测问题上的结构风险最小化而得到的多个预测问题中共有的低维映射特征空间。
进一步,该方法还包括,在所述步骤C中,所述分类结果包括:所述广告样本信息中的每个广告样本被分到各个类别中的概率。
进一步,该方法还包括,在所述步骤D中,与广告样本相关联的网页样本信息包括:展示过和/或正在展示该广告样本的网页、或者该广告样本被点击时所处的网页。
进一步,该方法还包括,步骤D中,针对各广告样本信息,依据与广告样本相关联的网页样本的出度或入度来修正该广告样本的分类概率。
进一步,该方法还包括,在所述步骤D中,所述对所述分类结果进行修正具体包括:cij(i=1,...,n,j=1,...,m)为步骤C中得到的第i个广告样本被分为第j个类别j的概率,Vi={vi1 ,...,vik}为与第i个广告样本相关联的网页样本集合,通过如下表达式来修正分类概率pij:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亿赞普网络技术有限公司,未经北京亿赞普网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110300130.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无烟沥青水下成型生产装置及其工艺
- 下一篇:一种厌氧水解污水处理装置