[发明专利]一种样本数据获取方法、装置及系统有效

专利信息
申请号: 201410130898.4 申请日: 2014-04-02
公开(公告)号: CN103942282B 公开(公告)日: 2018-01-02
发明(设计)人: 叶森 申请(专利权)人: 新浪网技术(中国)有限公司
主分类号: G06F17/30 分类号: G06F17/30;H04L12/58
代理公司: 北京同达信恒知识产权代理有限公司11291 代理人: 郭润湘
地址: 100080 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 样本 数据 获取 方法 装置 系统
【说明书】:

技术领域

发明涉及互联网通信领域,尤其涉及一种样本数据获取方法、装置及系统。

背景技术

随着互联网技术的快速发展,电子邮件以方便、快速的优点成为提供信息交换的一种重要通信方式。用户可以通过电子邮件传送信件、资料等各种信息,还可以得到大量免费的新闻、专题邮件等。电子邮件的快速传播以及信息多样化的特点也成为了一些商家或个人宣传产品、服务或传播各种商业信息的手段,随之便出现了垃圾邮件,即在未经用户许可的情况下,强行批量发送到用户邮箱中的电子邮件。如果垃圾邮件带有攻击性和破坏性,不仅对个人电脑的系统安全构成威胁,同样对邮件服务器也造成威胁。随着垃圾邮件的问题日益严重,反垃圾邮件技术应运而生,实现对垃圾邮件的有效过滤。

在对垃圾邮件进行过滤之前,首先要采集垃圾邮件的样本数据。现有的垃圾邮件样本数据获取方式主要为:用户在查看邮件时,当查收到批量推送的广告、电子杂志或连环信等邮件时,如果用户不感兴趣,会将这些邮件标记为垃圾邮件,后台的工作人员通过查看用户已标记的垃圾邮件,判断已标记的垃圾邮件是否为真正的垃圾邮件,通过服务器将判断后的垃圾邮件的邮件数据信息存储到数据库中,作为垃圾邮件样本数据,邮件数据信息包括邮件的发件人、标题、内容关键字、来源地址等信息。

上述垃圾邮件样本数据的获取方法中,如果用户在收到垃圾邮件一段时间之后才登录邮箱,对垃圾邮件进行标记,推送垃圾邮件不及时,不能满足对收集垃圾邮件的数量大的要求,并且由人工参与垃圾邮件样本数据的获取,使得垃圾邮件样本数据获取效率低。

发明内容

本发明实施例提供一种样本数据获取方法、装置及系统,用以解决现有技术中存在的垃圾邮件样本数据获取效率低的问题。

本发明实施例提供一种样本数据获取方法,包括:

搜索服务器接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;

针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;

按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。

采用本发明实施例提供的上述方法,由于搜索服务器将邮箱服务器发送的待收发邮件的邮件信息存储在索引数据库中,根据不同的需求按照预设的匹配规则可以在该索引数据库中自动获取想要的垃圾邮件样本数据,不需要人工参与垃圾邮件样本的分捡,提高了垃圾邮件样本数据的获取效率。

进一步的,所述垃圾邮件关键属性信息为垃圾邮件关键字;

所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,具体包括:

在所述索引数据库中查找与所述垃圾邮件关键字相同的邮件信息;

将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。

进一步的,所述预设垃圾邮件关键属性信息为多个垃圾邮件来源地址;

所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,具体包括:

统计多个垃圾邮件来源地址各自在所述索引数据库中所属邮件的邮件数量;

将所述邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。

进一步的,所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,具体包括:

使用搜索应用程序编程接口API调用所述索引数据库,并按照预设的匹配规则从所述索引数据库的邮件信息中,确定与预设的垃圾邮件关键属性信息匹配的邮件信息。

进一步的,所述待收发邮件的邮件信息包括待收发邮件的邮件标题、邮件发件人地址、邮件内容关键字中的至少一个信息。

本发明实施例提供一种样本数据获取装置,包括:

接收单元,用于接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;

存储单元,用于用于针对每个待收发邮件的所述邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410130898.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top