[发明专利]针对文本特征的广告过滤系统及其过滤方法有效
申请号: | 201210005620.5 | 申请日: | 2012-01-10 |
公开(公告)号: | CN102591854A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 吴华鹏;曾明;刘宇;史金城 | 申请(专利权)人: | 凤凰在线(北京)信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 李涛 |
地址: | 100029 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 文本 特征 广告 过滤 系统 及其 方法 | ||
技术领域
本发明涉及一种针对文本特征的广告过滤系统及其过滤方法,尤其涉及一种针对互联网互动产品的特点,对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法,属于网络信息安全技术领域。
背景技术
现阶段,互联网上各大论坛、博客等都面临着广告帖的大量灌入,极度影响用户的互动体验。一般,论坛、博客都有提供给版主删除广告、违法信息的操作后台,但是人工不能保证及时的屏蔽广告。本发明正是嵌入在这样的操作后台,使用多种方法提取文本特征。这些方法可以看做弱分类器,根据Boosting思想,我们使用人工神经网络将多种识别方法自适应融合。本发明识别速度快、识别率高,支持无人工操作。
目前,各个网站针对此情况一般都是采用如下的技术措施:
1.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤,但是面对过多用户同时发布多篇广告帖时,需要审查的帖子数量过多,管理员压力巨大,审查时间也会过长。
2.网友举报发布广告帖的用户:对于广告帖,网友可以进行举报,每人可举报一次,当举报数超过一定数量时,对被举报用户进行禁言措施。此种方法需要活跃用户自发参与,但若数量太大或马甲重复发帖,单凭网友力量很难解决。
3.关键词过滤方式:使用常见广告词汇作为关键词,包含关键词禁止发布。此种方法只能处理低级广告,若出现词变形或绕关键词,则无法识别。
4.使用预先设定的过滤参数,过滤参数不能根据不断变化的广告帖自动变化,即使出现过多误判,也只能人工对参数更新,而不能自我学习,无法适应广告帖发展趋势。
5.只是使用预订参数自动过滤,对人工操作没有给予考虑:当一些经过过滤系统过滤认为并不存在问题的帖子,可能由于其他规则被人工操作删除后,由于不会学习人工操作,下次系统遇到相似的帖子仍然不会过滤。
针对现有技术的种种不足,本发明嵌入到互动产品用户生成内容管理后台,根据内容及用户行为过滤广告帖内容。需要解决如下问题:
1.根据内容特点识别及过滤广告帖等不良内容;
2.结合用户历史及内容历史提高识别准确度;
3.分析每次人工操作,并在后续过滤中发挥作用;
4.自动对比机器与人工操作结果,自动调整参数。
发明内容
本发明所要解决的技术问题在于提供一种针对文本特征的广告过滤系统及其过滤方法,可以对广告帖等不良信息进行自动过滤。
为实现上述的发明目的,本发明采用下述的技术方案:
一种针对文本特征的广告过滤系统,其特征在于:所述广告过滤系统包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,内容输入接口用于接收来自于互联网互动产品的用户生成内容;特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;信息库用于存储用户生成内容的各项特征数据;决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;数据记录模块用于将特征数据、分类数据以及人工操作记录写入信息库;指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品;人工操作输入接口用于接收并解析人工修改过滤结果的操作;机器学习模块利用每次分析的结果以及人工操作记录进行学习,并根据学习更新决策计算模块。
所述内容输入接口包括:数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等信息。所述特征分析模块包括:分词器、相似度分析模块、文本内容分类模块、联系方式分析模块以及用户分析模块。
所述分词器使用汉语词法分析系统对用户生成内容中的文本内容进行分词;
所述相似度分析模块对分词后的词进行分析,得到与当前内容相似的内容发布次数,并根据人工操作记录或相似发布次数得到当前用户生成内容可能为广告的相似度特征值。
所述文本内容分类模块使用分词后的词在文本分类特征词集合进行映射得到词向量,使用支持向量机对词向量进行分类,得出的删除概率作为文本内容分类模块特征值。
所述联系方式分析模块用于提取解析后的用户生成内容数据中可能存在的联系方式,并对该联系方式进行分析,得到与当前联系方式相同的联系方式发布过多少次,并根据人工操作记录或联系方式发布次数得到当前用户生成内容可能为广告的联系方式特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凤凰在线(北京)信息技术有限公司,未经凤凰在线(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210005620.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:钢琴
- 下一篇:多层组合式鞋面部位及其制造方法