[发明专利]一种广告过滤系统及其过滤方法无效
申请号: | 201210004667.X | 申请日: | 2012-01-10 |
公开(公告)号: | CN102591983A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 吴华鹏;曾明;刘宇 | 申请(专利权)人: | 凤凰在线(北京)信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 李涛 |
地址: | 100029 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 广告 过滤 系统 及其 方法 | ||
1.一种广告过滤系统,其特征在于:
所述广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,
内容输入接口用于接收来自于互联网互动产品的用户生成内容;
特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;
信息库用于存储用户生成内容的各项特征数据;
决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;
数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库;
指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品;
人工操作输入接口用于接收并解析人工修改过滤结果的操作;
机器学习模块利用每次分析的结果以及人工操作记录进行学习,并根据学习更新决策计算模块。
2.如权利要求1所述的广告过滤系统,其特征在于:
所述内容输入接口包括:
数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;
解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等信息。
3.如权利要求1所述的广告过滤系统,其特征在于:
所述特征分析模块包括:分词器、相似度分析模块、文本内容分类模块、发帖间隔分析模块、联系方式分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。
4.如权利要求3所述的广告过滤系统,其特征在于:
所述分词器使用汉语词法分析系统对用户生成内容中的文本内容进行分词;
所述相似度分析模块对分词后的词进行分析,得到与当前内容相似的内容发布次数,并根据人工操作记录或相似发布次数得到当前用户生成内容可能为广告的相似度特征值。
5.如权利要求3所述的广告过滤系统,其特征在于:
所述文本内容分类模块使用分词后的词在文本分类特征词集合进行映射得到词向量,使用支持向量机对词向量进行分类,得出的删除概率作为文本内容分类模块特征值。
6.如权利要求3所述的广告过滤系统,其特征在于:
发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值;
所述联系方式分析模块用于提取解析后的用户生成内容数据中可能存在的联系方式,并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次,并根据人工操作记录或联系方式发布次数得到当前用户生成内容可能为广告的联系方式特征值。
7.如权利要求3所述的广告过滤系统,其特征在于:
URL提取器从解析后的数据中识别出所有URL;
URL分析模块对每个URL进行次数统计,并根据人工操作记录或出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。
8.如权利要求3所述的广告过滤系统,其特征在于:
所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点,计算图片校验值;
对该图片校验值进行分析,得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次,并根据人工操作记录或相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。
9.如权利要求3所述的广告过滤系统,其特征在于:
所述用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凤凰在线(北京)信息技术有限公司,未经凤凰在线(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210004667.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种终端接入方法及装置
- 下一篇:抗开裂低烟无卤阻燃聚烯烃护套料及其制备方法