[发明专利]短信识别方法及相关设备在审
申请号: | 202010468294.6 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111586695A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 李健;邵付东;蔡超维 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04W12/12 | 分类号: | H04W12/12;G06F16/33;G06Q10/06;H04W4/14 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短信 识别 方法 相关 设备 | ||
本申请涉及人工智能技术领域,提供了一种短信识别方法及相关设备,该方法包括:当接收到短信时,提取与所述短信相关的目标特征;所述目标特征的提取包括:分别将所述短信的短信内容中的每个汉字与预建立的汉字库中的汉字进行匹配,若匹配成功则将该汉字确定为常用汉字,若匹配失败则将该汉字确定为非常用汉字;在所述短信内容中提取与所述非常用汉字相关的特征作为目标特征;基于所述目标特征,采用预建立的短信识别模型对所述短信进行识别以计算所述短信的风险分值。本申请的实施能快速地对短信进行识别,提高了短信识别的效率以及准确率。
技术领域
本申请涉及人工智能技术领域,具体而言,本申请涉及一种短信识别方法及相关设备。
背景技术
短信作为一种信息传播的手段,用户通过具有通讯功能的终端设备可以发送或接收短信。随着科技的发展,短信的影响力日益广泛,一些不法分子为了谋取利益,利用短信传递信息的便利性向使用短信功能的用户发送诈骗信息、虚假宣传信息等,此类带有恶意的短信已经严重影响到人们的日常工作和生活,妨碍人们正常地使用短信功能。因此,识别出带有恶意的短信成为了各大运营商和终端设备安全厂商日益重视的一个课题。
现有技术中,一般是基于短信内容对短信进行识别,当短信内容中包含特定关键字时,如赌博等,则识别短信为恶意短信。该方法依赖于对特定关键字的收集,然而由于存在恶意短信行为的领域过多,如色情、赌博、贷款、伪基站、兼职诈骗等领域,需要收集齐全各个领域的特定关键字不仅费时,实现难度也非常大;且随着时间的推移,特定关键字的收集速度难以跟进恶意短信内容迸发的速度。同时,由于收集到的特定关键字非常多,基于特定关键字对短信进行识别的效率非常低。
发明内容
本申请提供了一种短信识别方法及相关设备,可以解决上述至少一种技术问题。所述技术方案如下:
第一方面,提供了一种短信识别方法,包括:当接收到短信时,提取与所述短信相关的目标特征;所述目标特征的提取包括:分别将所述短信的短信内容中的每个汉字与预建立的汉字库中的汉字进行匹配,若匹配成功则将该汉字确定为常用汉字,若匹配失败则将该汉字确定为非常用汉字;在所述短信内容中提取与所述非常用汉字相关的特征作为目标特征;基于所述目标特征,采用预建立的短信识别模型对所述短信进行识别以计算所述短信的风险分值。
结合第一方面,本申请在第一方面的第一种实施方式中,所述方法还包括:收集使用频率高于第一预设阈值的第一预设数量个汉字;获取第二预设数量条短信,统计所述第二预设数量条短信中每个汉字出现的次数,获取出现次数最多的前第三预设数量个汉字;基于所述第一预设数量个汉字与第三预设数量个汉字建立所述汉字库。
结合第一方面,本申请在第一方面的第二种实施方式中,所述与所述非常用汉字相关的特征包括所述非常用汉字的数量、所述非常用汉字的数量在短信内容的所有汉字数量中的占比、和所述非常用汉字的数量在短信内容的所有字符数量中的占比中的至少一项。
结合第一方面,本申请在第一方面的第三种实施方式中,所述目标特征的提取还包括以下至少一项:对所述短信的短信内容进行分析,提取与所述短信内容相关的第一特征;所述第一特征包括任一种字符的数量、所述任一种字符的数量在短信内容中的占比、和所有字符的数量中的至少一项;将所述第一特征作为所述目标特征;对所述短信的发送号码进行分析,提取与所述发送号码相关的第二特征;所述第二特征包括发送号码是否为手机号、所述短信是否通过虚拟运营商发出、发送号码是否业务端口号、发送号码的黄页名称、发送号码是否属于预设的黑名单、发送号码在第一预设时间段内发送短信的数量、和发送号码在第二预设时间段内发送目标短信的数量中的至少一项;将所述第二特征作为所述目标特征。
结合第一方面,本申请在第一方面的第四种实施方式中,所述方法还包括:收集若干数量的正样本短信与负样本短信构成样本短信集;针对所述样本短信集中每一条短信,提取与短信相关的目标样本特征;基于所述目标样本特征,采用机器学习算法建立所述短信识别模型,以使得所述短信识别模型计算当前短信的风险分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010468294.6/2.html,转载请声明来源钻瓜专利网。