[发明专利]对消息进行过滤处理的方法及装置在审
申请号: | 201310369473.4 | 申请日: | 2013-08-22 |
公开(公告)号: | CN104424208A | 公开(公告)日: | 2015-03-18 |
发明(设计)人: | 贾铸斌;袁昌文 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 周华霞;王丽琴 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消息 进行 过滤 处理 方法 装置 | ||
1.一种对消息进行过滤处理的方法,其特征在于,该方法包括:
由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系;
从待处理消息中提取特征词;
采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率;
判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。
2.如权利要求1所述的方法,其特征在于,所述由消息训练样本构建出特征词数据模型包括:
从消息训练样本中选取一组低质量消息和高质量消息;
由选取的低质量消息和高质量消息,构建出特征词数据模型;
再从消息训练样本中提取另一组低质量消息和高质量消息,采用提取的所述另一组低质量消息和高质量消息计算由特征词数据模型确定低质量消息的准确率;
判断准确率是否低于第二设定阈值,如果是,则对构建的特征词数据模型进行调整;否则,将构建出的特征词数据模型用于后续计算。
3.如权利要求1所述的方法,其特征在于,所述从待处理消息中提取特征词包括:
对待处理消息进行降噪处理,得到降噪处理后消息;
对降噪处理后消息进行划分,得到分词;
计算出各分词在降噪处理后消息中的权重,对权重进行排序,从最大的权重开始提取出设定个数的分词,作为待处理消息的特征词。
4.如权利要求3所述的方法,其特征在于,所述计算出各分词在降噪处理后消息中的权重包括:
将需要计算的分词称为待处理分词,计算出待处理分词在降噪处理后消息中出现的概率TF:TF=(待处理分词在降噪处理后消息中出现的个数)/(降噪处理后消息中出现的分词总个数);
计算出待处理分词在消息训练样本中出现的概率IDF:IDF=log(消息训练样本的消息总条数/(包含待处理分词的消息条数+1));
由TF和IDF计算出待处理分词在降噪处理后消息中的权重TF-IDF:TF-IDF=TF*IDF。
5.如权利要求1至4中任一项所述的方法,其特征在于,如果判断出待处理消息的低质量概率不大于第一设定阈值,则将待处理消息推送给请求方。
6.如权利要求5所述的方法,其特征在于,所述从待处理消息中提取特征词之前,该方法还包括:
接收请求方输入的订阅条件;
判断待处理消息是否满足订阅条件,如果满足,则执行所述从待处理消息中提取特征词的步骤。
7.如权利要求6所述的方法,其特征在于,接收请求方输入的订阅条件之后,该方法还包括:
判断是否进行了消息更新,如果是,则将更新消息作为待处理消息,执行所述判断待处理消息是否满足订阅条件的步骤。
8.一种对消息进行过滤处理的装置,其特征在于,该装置包括模型训练单元、特征词提取单元、联合概率计算单元和过滤判断单元;
所述模型训练单元,由消息训练样本构建出特征词数据模型,特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系;
所述特征词提取单元,从待处理消息中提取特征词,发送给所述联合概率计算单元;
所述联合概率计算单元,采用特征词训练模型确定出特征词对应的低质量概率,对待处理消息的所有特征词对应的低质量概率进行联合计算,得到联合概率,作为待处理消息的低质量概率,发送给所述过滤判断单元;
所述过滤判断单元,判断待处理消息的低质量概率是否大于第一设定阈值,如果是,则将待处理消息滤除掉。
9.如权利要求8所述的装置,其特征在于,所述模型训练单元包括构建模块和调整模块;
所述构建模块,从消息训练样本中选取一组低质量消息和高质量消息,由选取的低质量消息和高质量消息,构建出特征词数据模型;
所述调整模块,从消息训练样本中提取另一组低质量消息和高质量消息,采用提取的所述另一组低质量消息和高质量消息计算由特征词数据模型确定低质量消息的准确率;判断准确率是否低于第二设定阈值,如果是,则对构建的特征词数据模型进行调整;否则,将构建出的特征词数据模型用于后续计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310369473.4/1.html,转载请声明来源钻瓜专利网。