[发明专利]一种样本数据获取方法、装置及系统有效
申请号: | 201410130898.4 | 申请日: | 2014-04-02 |
公开(公告)号: | CN103942282B | 公开(公告)日: | 2018-01-02 |
发明(设计)人: | 叶森 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L12/58 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 郭润湘 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 数据 获取 方法 装置 系统 | ||
1.一种样本数据获取方法,其特征在于,包括:
搜索服务器接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;
针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;其中,所述索引标识为分配的一个数字标记,或为所述待收发邮件的邮件类型;
按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
2.如权利要求1所述的方法,其特征在于,所述垃圾邮件关键属性信息为垃圾邮件关键字;
所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,具体包括:
在所述索引数据库中查找与所述垃圾邮件关键字相同的邮件信息;
将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
3.如权利要求1所述的方法,其特征在于,所述垃圾邮件关键属性信息为多个垃圾邮件来源地址;
所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,具体包括:
统计多个垃圾邮件来源地址各自在所述索引数据库中所属邮件的邮件数量;
将所述邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
4.如权利要求1所述的方法,其特征在于,所述按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,具体包括:
使用搜索应用程序编程接口API调用所述索引数据库,并按照预设的匹配规则从所述索引数据库的邮件信息中,确定与预设的垃圾邮件关键属性信息匹配的邮件信息。
5.如权利要求1-4任一所述的方法,其特征在于,所述待收发邮件的邮件信息包括待收发邮件的邮件标题、邮件发件人地址、邮件内容关键字中的至少一个信息。
6.一种样本数据获取装置,其特征在于,包括:
接收单元,用于接收邮箱服务器收发邮件过程中提取的待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;
存储单元,用于针对每个待收发邮件的所述邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;其中,所述索引标识为分配的一个数字标记,或为所述待收发邮件的邮件类型;
确定单元,用于按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据。
7.如权利要求6所述的装置,其特征在于,所述垃圾邮件关键属性信息为垃圾邮件关键字;
所述确定单元,具体用于在所述索引数据库中查找与所述垃圾邮件关键字相同的邮件信息;将查找到的邮件信息所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
8.如权利要求6所述的装置,其特征在于,所述垃圾邮件关键属性信息为多个垃圾邮件来源地址;
所述确定单元,具体用于统计多个垃圾邮件来源地址各自在所述索引数据库中所属邮件的邮件数量;将所述邮件数量大于预设阈值的垃圾邮件来源地址所属邮件的索引标识对应的所有邮件信息,确定为垃圾邮件样本数据。
9.如权利要求6所述的装置,其特征在于,所述确定单元,具体用于使用搜索应用程序编程接口API调用所述索引数据库,并按照预设的匹配规则从所述索引数据库的邮件信息中,确定与预设的垃圾邮件关键属性信息匹配的邮件信息。
10.一种样本数据获取系统,其特征在于,包括:邮箱服务器和搜索服务器,其中:
所述邮箱服务器,用于在收发邮件过程中提取待收发邮件的邮件信息,所述邮件信息为表征所述待收发邮件关键属性的信息;将所述邮件信息发送给所述搜索服务器;
所述搜索服务器,用于接收所述邮箱服务器发送的所述邮件信息;针对每个待收发邮件的邮件信息,为该待收发邮件分配索引标识,并将分配的索引标识与对应的至少一个邮件信息的对应关系存储到索引数据库中;按照预设的匹配规则,从所述索引数据库中确定与预设的垃圾邮件关键属性信息匹配的邮件信息,作为垃圾邮件样本数据,其中,所述索引标识为分配的一个数字标记,或为所述待收发邮件的邮件类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410130898.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置