[发明专利]电话号码的识别方法及装置有效
申请号: | 201510643027.7 | 申请日: | 2015-09-30 |
公开(公告)号: | CN105227737B | 公开(公告)日: | 2018-01-05 |
发明(设计)人: | 马健 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | H04M1/2745 | 分类号: | H04M1/2745;H04L29/08 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙)11391 | 代理人: | 康正德,范晓斌 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电话号码 识别 方法 装置 | ||
技术领域
本发明涉及互联网应用技术领域,特别是一种电话号码的识别方法及装置。
背景技术
POI(Point of Interest),即兴趣点,是整个地图导航产业的基石,尤其在当前移动互联网时代,地图信息数据就变得更加不可或缺了。海量网页中包含大量的POI信息,每个POI信息包含名称、地址、经纬度、电话号码等信息,不同网页的POI数据质量层次不齐,而电话作为联系兴趣点的重要方式,其准确性是衡量一个POI数据质量的重要指标。
海量网页中包含了数以亿计的POI信息,电话号码的呈现方式也复杂多样,同一个POI信息可能会包含多个固定电话或者移动电话,并且交错合并到一起。此外,从互联网中提取的POI信息可能存在大量的错误的数据,POI的电话号码也是如此,而错误的电话号码在应用时会给用户带来体验上的伤害,所以如何准确地识别出网页POI信息中的电话号码成为目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的电话号码的识别方法及相应的装置。
依据本发明的一方面,提供了一种电话号码的识别方法,包括:
从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,得到第一指定位数的号码串;
判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征;
若是,则根据所述第一类别电话号码的属性特征,确定至少两个探测位数;
分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果;
根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全。
可选地,所述分别采用各个探测位数对所述目标待识别电话号码串进行切分,得到切分结果,包括:
对于各个探测位数,利用该探测位数对所述目标待识别电话号码串的、所述第一指定位数的号码串之后的电话号码串进行切分,得到第一切分号码和第二切分号码;
比较所述第一切分号码和所述第二切分号码,确定两者对应位置上号码相同的位数,作为该探测位数对应的切分结果。
可选地,根据所述切分结果,从所述至少两个探测位数中选取最优探测位数对所述第一指定位数的号码串进行补全,包括:
比较所述各个探测位数对应的号码相同的位数;
从所述各个探测位数中,选取对应号码相同的位数最大的作为最优探测位数;
对所述第一指定位数的号码串补全所述最优探测位数。
可选地,在判断所述第一指定位数的号码串是否符合第一类别电话号码的属性特征之后,还包括:
若所述第一指定位数的号码串不符合第一类别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定位数的号码串;
判断所述第二指定位数的号码串是否符合第二类别电话号码的属性特征;
若是,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串进行补全。
可选地,从初始位置起,根据符合电话号码格式的划分规则对目标待识别电话号码串进行划分,包括:
对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;
从初始位置起,根据符合电话号码格式的划分规则对所述处理后的目标待识别电话号码串进行划分。
可选地,对所述目标待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串,包括:
确定所述目标待识别电话号码串中是否包含指定的分隔符;
若所述目标待识别电话号码串中包含指定的分隔符,则按照该分隔符切分所述目标待识别电话号码串,得到切分后的至少两个目标待识别电话号码串。
可选地,所述指定的分隔符包括下列至少之一:顿号、逗号、分号、斜杠、反斜杠、竖杆。
可选地,在得到切分后的至少两个目标待识别电话号码串之后,还包括:
对于各个目标待识别电话号码串,确定该目标待识别电话号码串的头部是否具有国家区号;
若是,则去除该目标待识别电话号码串头部的国家区号。
可选地,在去除该目标待识别电话号码串头部的国家区号之后,还包括:
分析去除了国家区号之后的所述目标待识别电话号码串;
若所述目标待识别电话号码串的头部具有地区区号且该地区区号不完整,则补充该地区区号使其完整;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510643027.7/2.html,转载请声明来源钻瓜专利网。