[发明专利]基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统在审
申请号: | 202010008497.7 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111198947A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 石嘉;王秀丽;李盛超 | 申请(专利权)人: | 南京中新赛克科技有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 苏虹 |
地址: | 210012 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 朴素 贝叶斯 优化 卷积 神经网络 诈骗 短信 分类 方法 系统 | ||
本发明公开了一种基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统,建立模板库,将待判别短信与模板库中的短信模板进行匹配分类;模板匹配失败的短信通过textCNN模型进行二次判别,经textCNN模型判别成功的短信完成分类,确定为诈骗短信;textCNN模型判别失败的短信通过计算贝叶斯概率进行再次分类,贝叶斯概率未成功分类的短信,则确定为非诈骗短信。本发明实现了朴素贝叶斯与textCNN并行的短信诈骗分类的方案,且通过关键字的统计生成模板对整个模型进行优化,同时还能进行模板库自增实现自学习,使得短信诈骗分类准确率和召回率都得到大幅度提高。
技术领域
本发明涉及一种自然语言处理文本分类方法和系统,特别是涉及一种基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法和系统。
背景技术
随着互联网的发展,非结构化的文本数据急剧增加,在为人们提供更多可用信息的同时,也导致人们更难从海量数据中管理自己想要的数据,因此如何有效的组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前面临的一大挑战。由于信息量大庞大,若仅凭人工方式来收集和挖掘文本数据,不仅需要消耗大量的人力和时间,而且也难以实现。实现文本自动分类显得尤其重要,它是文本信息处理的基本功能,也成为了处理和组织文本数据的核心技术。
对于文本分类问题,常见的方法无非是抽取文本的特征,比如使用word2vec或者LDA模型将文本转换成一个固定维度的特征向量,然后再基于抽取的特征训练一个分类器。然而随着yoon kim的论文《Convolutional Neural Networks for SentenceClassification》提出TextCNN,打开了卷积神经网络(Convolutional Neural Networks,CNN)对文本分类的大门,实验研究表明CNN对浅层特征的抽取能力很强,在短文本分类时效果很好,应用广泛,且速度快,一般是首选。同时朴素贝叶斯作为数据的十大算法之一,由于其易于构造和解释,并具有良好的性能,因此被广泛用于解决分类。
然而在实际诈骗短信的应用中,textCNN对于正常文字的短信的分类效果确实非常好,然而诈骗短信中有很多短信含有非规范的文字,此时利用word2vec将文字转为特征向量时,并不能准确表示该非规范文字的特征,故对于这一类短信CNN分类的效果并不理想,所以对于含非规范文字的短信分类急需优化。
发明内容
发明目的:本发明的目的之一是提供一种基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法,能够提高短信诈骗分类的准确率和召回率;本发明的目的之二是一种基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类系统。
技术方案:本发明的一种基于朴素贝叶斯优化下的卷积神经网络诈骗短信分类方法,包括:
建立模板库,将待判别短信与模板库中的短信模板进行匹配分类,模板匹配成功的短信判定为诈骗短信;其中,模板库的构建包括将来自于人工研判的所有诈骗短信聚类后,每类找出一条代表短信样本形成短信模板,构建成模板库。
模板匹配失败的短信通过textCNN模型进行二次判别,经textCNN模型判别成功的判定为诈骗短信,判别失败的短信继续进行贝叶斯概率计算分类;
textCNN模型判别失败的短信通过计算贝叶斯概率进行再次分类,贝叶斯概率分类成功的短信确定为诈骗短信并完成分类,贝叶斯概率分类失败的短信,则确定为非诈骗短信。
优选地,将经textCNN模型判别成功的短信形成新的短信模板,并形成扩增模板放入模板库中。模板库通过textCNN增加了模板的数据量,从而达到自适应匹配的效果。
优选地,待判别短信与模板库中的短信模板进行匹配分类的具体过程为:将待判别短信与模板库中的短信模板计算其余弦相似度,当相似度大于设定阈值时,判定为诈骗短信,模板匹配成功。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中新赛克科技有限责任公司,未经南京中新赛克科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010008497.7/2.html,转载请声明来源钻瓜专利网。