[发明专利]基于深层类神经网络的骚扰电话识别方法和装置在审

申请号：	201610875788.X	申请日：	2016-09-30
公开（公告）号：	CN107889111A	公开（公告）日：	2018-04-06
发明（设计）人：	黃獻德	申请（专利权）人：	北京金山安全软件有限公司
主分类号：	H04W12/12	分类号：	H04W12/12;H04M1/663;G06N3/08
代理公司：	广州三环专利商标代理有限公司44202	代理人：	郝传鑫,熊永强
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深层神经网络骚扰电话识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请发明实例涉及计算器领域的机器学习与数据挖掘方法，其中特别涉及一种基于深层类神经网络的骚扰电话识别方法和装置。

背景技术

机器学习分类算法可以用来预测类别或类别数据的单一实例，其中二元分类其目标是要预测两个结果之一，例如：电子邮件筛选器会使用二元分类来判断电子邮件是否为垃圾邮件；另一个是多级分类，其目标是要预测许多结果之一；而分类算法的输出称为分类器，可用来预测新(未加上卷标)实例的卷标。而机器学习技术近年来的进步，促使应用层面相当广泛，例如推荐引擎、定向广告、医学诊断、自然语言处理、搜索引擎、诈骗侦测、证券分析、视觉辨识、语音识别及手写识别等等。

伴随着智能手机的普及，骚扰电话、诈骗电话增速明显，正在逐步取代电脑病毒、钓鱼网站成为移动互联网时代用户信息安全的新威胁。在全球很多国家和地区，通过电信进行诈骗的悲剧不断曝光，骚扰电话、诈骗电话的危害已经从财产安全扩展到人身安全。

目前相关技术多为直接搜集相关可疑来电号码建制黑白名单进来拦截，但由于来电号码伪造技术的进步，此方法明显无法实时的拦截及封阻；另外亦有藉由传统机器学习的逻辑回归、判定树、随机森林等演算方法进行学习，希望藉此能做到较为实时的封阻，但这只适用于少数国家的特定应用场景，应对全球各个国家和地区骚扰电话越来越多的情况明显较不足。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种深层类神经网络的骚扰电话识别方法，该方法主要是透过深层类神经网络技术，通过挖掘陌生来电记录的行为信息生成多维数据特征向量，然后输入到深层类神经网络，借由反向传播算法进行反复训练提升深层类神经网络对骚扰电话的识别率，继而可以使用训练好的深层类神经网络模型检测和识别陌生来电是否为骚扰电话。

本发明的第二个目的在于提出一种基于深层类神经网络的骚扰电话识别装置。

为达上述目的，本发明第一方面实施例基于深层类神经网络的骚扰电话识别方法，包括：

收集陌生来电记录建立训练集；

提取所述训练集中每条陌生来电记录的行为信息值生成多维向量，对所述训练集中每条陌生来电记录进行标记,所述标记用于表示该陌生来电号码是否为骚扰电话；

构建深层类神经网络，所述深层类神经网络依次包括输入层、多个抽象层和输出层；使用所述训练集中的陌生来电记录的多维向量训练所述深层类神经网络，使得所述深层类神经网络能够正确识别所述训练集中的每条陌生来电记录是否为骚扰电话；其中，所述输入层的大小与所述多维向量大小一致；

采集陌生来电号码的行为信息生成多维向量，然后输入到训练好的所述深度神经网络中，根据所述深层类神经网络的输出层特征值判断所述陌生来电是否为骚扰电话。

本发明实施例基于深层类神经网络的骚扰电话识别方法，基于深层类神经网络技术，通过挖掘陌生来电记录的行为信息生成多维数据特征向量，然后输入到深层类神经网络，借由反向传播算法进行反复训练提升深层类神经网络对骚扰电话的识别率。由于计算机性能的大幅度进步，使用深层类神经网络算法，简化过去需为了特征截取所需耗费的人力等资源，同时也更加节省所需的模型训练及测试的计算时间。

在第一方面的一种可能的实现形式中，所述收集陌生来电记录建立训练集,包括：

根据所述陌生来电的号码信息收集相同国家的陌生来电记录建立训练集。

在第一方面的另一种可能的实现形式中，该识别方法还包括：

将判定为骚扰电话的陌生来电号码存入相应国家的骚扰电话黑名单数据库中。

在第一方面的另一种可能的实现形式中，所述深层类神经网络具体包括一个输入层、三个抽象层和一个输出层。

在第一方面的另一种可能的实现形式中，所述深层类神经网络的抽象层大小与输入层大小一致。

在第一方面的另一种可能的实现形式中，所述深层类神经网络的输出层为softmax二元分类器。

在第一方面的另一种可能的实现形式中，所述深层类神经网络的输入层大小为9。

本发明第二方面实施例的基于深层类神经网络的骚扰电话识别装置，包括：

训练模块，用于收集陌生来电记录建立训练集；提取所述训练集中每条陌生来电记录的行为信息值生成多维向量，对所述训练集中每条陌生来电记录进行标记,所述标记用于表示该陌生来电号码是否为骚扰电话；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载