[发明专利]从文本中抽取电话号码的方法在审
申请号: | 201910154267.9 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109885837A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 陈包容 | 申请(专利权)人: | 陈包容 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吝秀梅 |
地址: | 410009 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 数字文本 文本内容 抽取 数据集 阿拉伯数字 专用数据库 预先创建 检索 计算机信息处理技术 文本 筛选 固定电话号码 组合字符串 连续序列 手机号码 数据集中 匹配性 使用性 | ||
1.从文本中抽取电话号码的方法,其特征在于,包括以下步骤:
S1、预先创建专用数据库群;
S2、针对已获得的文本内容进行分词,获得分词数据集;
S3、针对所述分词数据集,按照以下规则分步抽取其中的电话号码:
首先,检索所述分词数据集中不低于三个阿拉伯数字的连续组合字符串并将数字汇总成数字文本组合;
然后,从所述数字文本组合的第一个阿拉伯数字开始检索首个数字和其右侧的数字的连续序列组合;
最后,根据预先创建的专用数据库群推测和抽取电话号码。
2.根据权利要求1所述的从文本中抽取电话号码的方法,其特征在于:所述专用数据库群包括电话号码前缀库、电话号码国际区号库、手机号码组成规则库、固定电话号码组成规则库、特殊号码库、间隔符号库、正常空格的数目阈值规则库,所述手机号码组成规则库包括手机号段部分和手机号码部分,所述固定电话号码组成规则库包括固定电话区号部分和固定电话号码部分。
3.根据权利要求2所述的从文本中抽取电话号码的方法,其特征在于:所述根据预先创建的专用数据库群推测和抽取电话号码包括,
根据预先创建的专用数据库群中的特殊号码库,检索匹配是否为特殊号码,若是则抽取为特殊号码;
否则,继续推测和抽取手机号码或固定电话号码。
4.根据权利要求3所述的从文本中抽取电话号码的方法,其特征在于:所述推测和抽取手机号码按以下规则进行,
是否为电话号码前缀+电话号码国际区号+手机号段+手机号码部分的序列组合,若是,则抽取为手机号码;
是否为电话号码国际区号+手机号段+手机号码部分的序列组合,若是,则抽取为手机号码;
是否为手机号段+手机号码部分的序列组合,若是,则抽取为手机号码。
5.根据权利要求3所述的从文本中抽取电话号码的方法,其特征在于:所述推测和抽取固定电话号码按以下规则进行,
是否为电话号码前缀+电话号码国际区号+固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码;
是否为电话号码前缀+电话号码国际区号+去掉第一个零的固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码;
是否为电话号码国际区号+固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码;
是否为电话号码国际区号+去掉第一个零的固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码;
是否为固定电话区号+固定电话号码部分的序列组合,若是,则抽取为固定电话号码。
6.根据权利要求2所述的从文本中抽取电话号码的方法,其特征在于:所述正常空格的数目阈值规则库包括:用户自定义设定空格字符数量阈值,根据两个规则判断空格数目是否正常;
若电话号码文本中的空格字符数量低于设定的数目阈值,默认为合法正常的空格,系统自动删除空格;
若电话号码文本中的空格字符数量高于设定的数目阈值,则默认为不合法不正常的空格,系统不予计算。
7.根据权利要求2所述的从文本中抽取电话号码的方法,其特征在于:所述正常空格的数目阈值规则库和间隔符号库还用于辅助生成所述数字文本组合,包括:
阿拉伯数字之间允许有低于所述正常空格的数目阈值规则库中用户自定义设定空格字符数量阈值的空格,以及所述间隔符库中的间隔符,如有,系统自动删除所述空格和间隔符,将剩下的数字汇总成数字文本组合;
阿拉伯数字之间有高于所述正常空格的数目阈值规则库中用户自定义设定空格字符数量阈值的空格,则系统自动将所述空格两侧的数字组合切分为单独的数字文本组合。
8.根据权利要求1所述的从文本中抽取电话号码的方法,其特征在于:步骤S2中,已获得的所述文本内容为电子格式的面向计算机信息处理的文字组合。
9.根据权利要求2所述的从文本中抽取电话号码的方法,其特征在于:所述专用数据库群中的所有数据库均支持用户自定义增减数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈包容,未经陈包容许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910154267.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种精准分词的方法
- 下一篇:从文本中抽取电子邮箱地址的方法