[发明专利]一种电子邮件中号码的提取方法及其装置在审
申请号: | 201310397191.5 | 申请日: | 2013-09-04 |
公开(公告)号: | CN103490980A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 陈颖棠;叶远鹏 | 申请(专利权)人: | 盈世信息科技(北京)有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L29/06 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 颜希文 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子邮件 号码 提取 方法 及其 装置 | ||
技术领域
本发明涉及电子邮件技术领域,特别是涉及一种电子邮件中号码的提取方法及其装置。
背景技术
随着移动终端技术的不断发展,手机、掌上电脑、平板、笔记本等各种移动设备已经成为人们工作、生活中必不可缺的一部分,而电子邮件是人们办公、通信最常用的功能之一。在互联网用户的各种应用中,电子邮件是一种比较常用的基础应用,用户可以通过发送电子邮件向对方传送信息,十分便捷,但也同时产生了垃圾电子邮件的问题。
垃圾电子邮件是指未经用户(接收方)许可就强行发送到用户的电子邮箱中的任何电子邮件,垃圾电子邮件的内容包括推销广告、成人广告、赚钱信息,或者包含电脑病毒,以至接收方用户的电脑系统受到侵害。这些垃圾电子邮件给邮箱用户带来了困扰,影响到了邮箱用户的使用体验,因此各大邮件提供商都把提升电子邮件反垃圾系统效果作为提升邮箱用户体验的重要关注点。
现有技术存在一种通过提取号码的形式识别电子邮件是否为垃圾电子邮件,号码的提取主要在电子邮件主题以及电子邮件的内容中提取,主要用途是作为电子邮件的附加特征应用于反垃圾领域,如一些留有联系方式的垃圾邮件,可将所提取的号码跟存有垃圾号码的数据库中的数据进行对比,以识别电子邮件是否为垃圾电子邮件,现有提取号码的技术存在两种方式,一种是多数的号码提取都是直接寻找全是数字的号码串,另一种方式是使用正则表达式进行号码提取。
直接查找全是数字的号码提取的方法的适用性较窄,仅适用于连续数字串,无法识别带有分隔符的号码;而使用正则表达式进行号码识别只是识别并提取符合规则的串,由于本身具有强大的功能而导致编写和测试验证的难度较大,且比较消耗资源。上述两种方法所提取出的号码都是原始的字符串,不能转换成一般的纯数字串,不方便反垃圾模块的分析以及规则的应用。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种电子邮件中号码的提取方法及其装置,可以降低号码提取的难度,以及降低资源的消耗。
为了解决上述问题,本发明提出了一种电子邮件中号码的提取方法,所述方法包括:
对所述电子邮件中的单个符号进行识别,并获得识别结果;
对所述识别结果进行分类判定,获得判定结果;
对所述判定结果进行转换,获得纯数字号码串。
优选地,所述对所述电子邮件中的单个符号进行识别,并获得识别结果的步骤包括:
根据字符编码识别所述符号为单字节符号或者为双字节符号。
优选地,所述对所述识别结果进行分类判定,获得判定结果的步骤包括:
当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;
当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。
优选地,所述对所述判定结果进行转换,获得纯数字号码串的步骤包括:
若判定为单字节纯数字,则直接记录该数字;
若判定为双字节字符,则转换为单字节字符,并转换为纯数字号码。
优选地,所述方法还包括:对所述纯数字号码串进行检验记录。
相应地,本发明还提供一种电子邮件中号码的提取装置,所述装置包括:
识别模块,用于对所述电子邮件中的单个符号进行识别,并获得识别结果;
判定模块,用于对所述识别模块所获得的识别结果进行分类判定,获得判定结果;
转换模块,用于对所述判定模块所获得的判定结果进行转换,获得纯数字号码串。
优选地,所述识别模块用于根据字符编码识别所述符号为单字节符号或者为双字节符号。
优选地,所述判定模块还用于当判定所述符号为单字节符号时,根据字符编码判定是否为单字节纯数字,或者是否为单字节分隔符;以及用于当判定所述符号为双字节符号时,根据字符编码判定是否为双字节符号号码,或者是否为双字节分隔符。
优选地,所述转换模块用于若所述判定结果为单字节纯数字时,则直接记录该数字;以及用于若所述判定结果为双字节字符时,则转换为单字节字符,并转换为纯数字号码。
优选地,所述装置还包括:检验记录模块,用于对所述纯数字号码串进行检验记录。
实施本发明实施例,可在电子邮件的主题或内容中识别出带分隔符的号码以及符号号码,并将混合号码转换为纯数字号码串,可以降低号码提取的难度,以及降低资源的消耗;以及方便电子邮件中反垃圾模块的分析以及规则的应用,以快速地识别出是否为垃圾电子邮件,给用户带来便利。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盈世信息科技(北京)有限公司,未经盈世信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310397191.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合营养米及其制备方法
- 下一篇:一种果味复合保健米及其制备方法