[发明专利]识别电话号码的方法及装置有效
申请号: | 201510643127.X | 申请日: | 2015-09-30 |
公开(公告)号: | CN105260440B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 马健 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙) 11391 | 代理人: | 康正德;范晓斌 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 电话号码 方法 装置 | ||
本发明提供了一种识别电话号码的方法及装置。该方法包括:获取原始待识别电话号码串;对所述原始待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别电话号码串进行划分,得到第一指定位数的号码串;识别出所述第一指定位数的号码串对应的电话号码的类别。本发明实施例结合不同类别的电话号码具有的特征,采用不同类别的电话号码对应的电话号码格式的划分规则对目标待识别电话号码串进行划分,根据划分得到的第一指定位数的号码串识别出其对应的电话号码的类别,实现对不同类别的电话号码的有效识别。
技术领域
本发明涉及互联网应用技术领域,特别是一种识别电话号码的方法及装置。
背景技术
POI(Point of Interest),即兴趣点,是整个地图导航产业的基石,尤其在当前移动互联网时代,地图信息数据就变得更加不可或缺了。海量网页中包含大量的POI信息,每个POI信息包含名称、地址、经纬度、电话号码等信息,不同网页的POI数据质量层次不齐,而电话作为联系兴趣点的重要方式,其准确性是衡量一个POI数据质量的重要指标。
海量网页中包含了数以亿计的POI信息,电话号码的呈现方式也复杂多样,同一个POI信息可能会包含多个固定电话或者移动电话,并且交错合并到一起。此外,从互联网中提取的POI信息可能存在大量的错误的数据,POI的电话号码也是如此,而错误的电话号码在应用时会给用户带来体验上的伤害,所以如何准确地识别出网页POI信息中的电话号码成为目前亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别电话号码的方法及相应的装置。
依据本发明的一方面,提供了一种识别电话号码的方法,包括:
获取原始待识别电话号码串;
对所述原始待识别电话号码串进行与电话号码格式相关的预处理操作,得到处理后的目标待识别电话号码串;
从初始位置起,根据符合电话号码格式的划分规则对所述目标待识别电话号码串进行划分,得到第一指定位数的号码串;
识别出所述第一指定位数的号码串对应的电话号码的类别。
可选地,在识别出所述第一指定位数的号码串对应的电话号码的类别之后,还包括:
若存在剩余的待识别电话号码串,则再次执行预处理操作、划分操作以及识别操作,直至剩余的待识别电话号码串被全部识别完。
可选地,识别出所述第一指定位数的号码串对应的电话号码的类别,包括:
判断所述第一指定位数的号码串是否满足第一类别电话号码的属性特征;
若是,则根据所述第一类别电话号码的属性特征,对所述第一指定位数的号码串进行补全,得到所述第一指定位数的号码串对应的电话号码。
可选地,在判断所述第一指定位数的号码串是否满足第一类别电话号码的属性特征之后,还包括:
若所述第一指定位数的号码串不满足第一类别电话号码的属性特征,则选取新的符合电话号码格式的划分规则对所述目标待识别电话号码串重新进行划分,得到第二指定位数的号码串;
判断所述第二指定位数的号码串是否满足第二类别电话号码的属性特征;
若是,则根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码串进行补全,得到所述第二指定位数的号码串对应的电话号码。
可选地,根据所述第二类别电话号码的属性特征,对所述第二指定位数的号码进行补全,包括:
根据所述第二类别电话号码的属性特征,确定至少两个探测位数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510643127.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子地图发布方法、装置和电子地图显示方法
- 下一篇:数据发布方法、装置及终端