[发明专利]从文本中抽取电子邮箱地址的方法在审
申请号: | 201910154282.3 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109885838A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 陈包容 | 申请(专利权)人: | 陈包容 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吝秀梅 |
地址: | 410009 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 电子邮箱地址 分词 电子邮箱 数据集 名称文本 文本 文本数据挖掘 计算机提取 有效地减少 专用数据库 文本内容 文本数据 文本信息 文字信息 一步检测 预先创建 左右两侧 分隔点 精准度 有效地 检测 剔除 筛选 计算机 | ||
本发明涉及文本数据挖掘提抽取技术领域,且公开了从文本中抽取电子邮箱地址的方法,包括以下操作步骤:预先创建专用数据库群;将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集,针对已获得的文本内容进行分词,获得分词数据集;针对分词数据集抽取电子邮箱地址。本发明通过将数据中的电子邮箱名称文本分为三个部分,以@为分隔点,在进行筛选抽取时,分步检测@左右两侧的文字信息,是否符合设定的阈值,以此来判断是否进行下一步检测,可以有效地减少计算机不必要的检测,提高了计算机提取文本数据时的速度,同时可以有效地剔除错误或相似的无效文本信息,进而提高了该从文本中抽取电子邮箱地址方法的精准度。
技术领域
本发明涉及文本数据挖掘提抽取技术领域,具体为从文本中抽取电子邮箱地址的方法。
背景技术
文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科,其处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系,文本挖掘在很多应用中都扮演重要角色,例如数据采集、信息抽取(例如互联网搜索)等。
而文本信息抽取是文本数据挖掘的一个基础技术,文本信息抽取是从文本数据中抽取特定信息的一种技术,其主要是由一些具体的单位构成的,例如句子、段落及篇章等,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合,从中抽取文本数据中的联系方式、电子邮箱地址、社交号码、短语、人名或地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
而在抽取文本数据中的英文电子邮箱地址,通过目前已有的技术方案实现时,其精准率比较低,时常会导致提取信息出错、用户无法使用的问题,同时计算机系统的计算量较大,严重影响了用户的使用体验及提取文本数据时的效率,故亟需提供一种从文本数据中精准快速地提取电子邮箱地址的方法。
发明内容
(一)解决的技术问题
本发明提供了从文本中抽取电子邮箱地址的方法,具备精准率高、不会出现提取的信息出错和提取数据的效率高的优点,解决了在抽取文本数据中的英文电子邮箱地址,通过目前已有的技术方案实现时,其精准率比较低,时常会导致提取信息出错、用户无法使用的问题,同时计算机系统的计算量较大,严重影响了用户的使用体验及提取文本数据时的效率的问题。
(二)技术方案
本发明提供如下技术方案:从文本中抽取电子邮箱地址的方法,包括以下操作步骤:
S01、预先创建专用数据库群;
S02、将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集;
S03、针对已获得的文本内容,进行分词,获得分词数据集;
S04、针对分词数据集,抽取电子邮箱地址。
优选的,所述专用数据库群,包括创建域名后缀库、创建正常空格的数目阈值规则库、创建电子邮箱地址连接符号库,所述正常空格的数目阈值规则库是用户自定义设定空格字符数量阈值。
优选的,所述专用数据库群均支持用户自定义增减数据。
优选的,所述电子邮箱名称分词数据集包括:
电子邮箱第一部分,所述电子邮箱第一部分是指@左侧的文本;
电子邮箱第二部分,所述电子邮箱第二部分是指@与域名之间的文本;
电子邮箱第三部分,所述电子邮箱第三部分是指电子邮箱的域名后缀。
优选的,所述电子邮箱名称文本是指英文、数字、电子邮箱地址连接符号的任意不连续地组合,且电子邮箱第一部分和电子邮箱第二部分中的英文、数字、标点符号之间无任何中文文字和空格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈包容,未经陈包容许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910154282.3/2.html,转载请声明来源钻瓜专利网。