[发明专利]对消息进行过滤处理的方法及装置在审
申请号: | 201310369473.4 | 申请日: | 2013-08-22 |
公开(公告)号: | CN104424208A | 公开(公告)日: | 2015-03-18 |
发明(设计)人: | 贾铸斌;袁昌文 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 周华霞;王丽琴 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消息 进行 过滤 处理 方法 装置 | ||
技术领域
本发明涉及信息处理技术,尤其涉及对消息进行过滤处理的方法及装置。
背景技术
在消息发布领域,常涉及对消息进行过滤处理,以确定发布的是否为低质量消息,如果为低质量消息,则滤除掉该消息,进而筛选出高质量的消息。
进行消息滤除的应用场景很多,下面具体以在微博平台发布消息为例,进行说明。微博平台是一个比较开放的消息分享与交流平台,同时微博开放平台提供了较多的应用程序编程接口(API,Application Programming Interface),通过API将微博平台的功能开放给第三方应用。目前使用微博开放平台的API应用多达2000家,在众多应用中,各个应用发布的消息质量参差不齐。很多应用在微博平台发布的消息质量很低,带来很大的干扰;为此需要一套低质量过滤方案,以自动识别出低质量消息,帮助筛选高质量的消息,优化消息发布。
目前对消息进行过滤处理的方法主要有以下两种,下面进行详细说明。
方法一、
根据消息来源判断消息是低质量消息还是高质量消息。该方法存在以下缺陷:分析消息的发表来源比较困难,较难实现对消息的质量的判别,导致筛选的准确率较低。
针对开放平台的某一应用,根据消息来源对该应用发布的所有消息进行过滤,如果判断出发布的消息中80%为低质量消息,可以封杀该应用的分享能力;但这种方式只能封杀发布大量低质量内容的应用,对于发布少量低质量内容的应用无法进行封杀。
方法二、
首先进行分析,提取低质量特征词;然后进行判断,如果消息中包含这些特征词,则判定为低质量消息的概率很高,将其确定为低质量消息。例如,低质量特征词为“淘宝”、“分享”、“测试”等特征词,如果消息中包含这些低质量特征词,则判定该消息为低质量消息,对其进行滤除。
方法二存在以下缺陷:在消息中发现低质量特征词就将其确定为低质量的消息,错误判别的概率很高,导致筛选的准确率较低;为了提高准确率,可对结果进一步进行人工筛选,但这样做需要大量的人工介入,工作量很大,一般很少采用。
综上,现有对消息进行过滤处理的方案存在筛选准确率较低的缺陷。
发明内容
本发明提供了一种对消息进行过滤处理的方法,该方法能够提高筛选的准确率。
本发明提供了一种对消息进行过滤处理的装置,该装置能够提高筛选的准确率。
一种对消息进行过滤处理的方法,该方法包括:
由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系;
从待处理消息中提取特征词;
采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率;
判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。
一种对消息进行过滤处理的装置,该装置包括模型训练单元、特征词提取单元、联合概率计算单元和过滤判断单元;
所述模型训练单元,由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系;
所述特征词提取单元,从待处理消息中提取特征词,发送给所述联合概率计算单元;
所述联合概率计算单元,采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率,发送给所述过滤判断单元;
所述过滤判断单元,判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。
从上述方案可以看出,本发明中,由消息训练样本构建出特征词数据模型,结合构建出的特征词数据模块,分别计算出待处理消息中各特征词对应的低质量概率,对计算出的所有低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率。本发明方案并不简单地依据消息来源判断待处理消息为低质量消息还是高质量消息,也不简单根据消息是否包含低质量特征词来确定该消息是低质量消息还是高质量消息,从而,提高了消息筛选的准确率,简化了操作。
附图说明
图1为本发明对消息进行过滤处理的方法示意性流程图;
图2为本发明对消息进行过滤处理的方法流程图实例;
图3为本发明进行消息推送的方法流程图实例;
图4为本发明对消息进行过滤处理的装置结构示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310369473.4/2.html,转载请声明来源钻瓜专利网。