[发明专利]一种风险网址的识别方法、装置及电子设备有效
申请号: | 202010454581.1 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111652622B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 李超;汲小溪;蒋博赟;王维强;王澜;赵闻飙 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06Q20/40 | 分类号: | G06Q20/40;G06F21/51;G06F18/25;G06F18/213;G06F18/24;G06F16/35 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 文季 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 风险 网址 识别 方法 装置 电子设备 | ||
本说明书公开了一种风险网址的识别方法,装置及电子设备,该方法包括:获取待识别的目标网址;爬取所述目标网址对应的文本信息和图像信息;通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征;通过机器学习算法对所述共同表征进行分类,确认所述目标网址是否为风险网址。在上述技术方案中,通过获取目标网址对应的文本信息和图像信息进行多模态表示学习获得两者之间的共同表征,排除无效信息和干扰信息,基于其共同表征进行风险网址识别,提升了风险网址识别的准确率。
技术领域
本说明书涉及软件技术领域,特别涉及一种风险防控方法、装置及电子设备。
背景技术
目前,很多黄赌毒、非法投融资、欺诈等非法行为通过网址进行线上作案。通过网址进行线上作案的主体本身拥有账户和密码。一方面,由于其账户本身一直处于异常交易状态,在交易行为中基于账户历史交易记录能够获取的异常交易特征很少,很难通过交易行异常为对其进行风险防控。另一方面,其账户通常会有多个,并且会不断的切换,可以绕过风控高频大额等风险防控规则,即使部分账户被处罚或封号,其整个经营模式不受影响,如何应对这种通过网址进行线上作案的非法行为已成为一个亟待解决的问题。
发明内容
本说明书实施例提供一种风险网址的识别方法、装置及电子设备,用于实现对网络在线作案进行网址识别。
第一方面,本说明书实施例提供一种风险网址的识别方法,所述方法包括:
获取待识别的目标网址;
爬取所述目标网址对应的文本信息和图像信息;
通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征;
通过机器学习算法对所述共同表征进行分类,确认所述目标网址是否为风险网址。
可选的,所述通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征,包括:
对所述文本信息进行向量转换获得文本特征向量,对所述图像信息进行向量转换获得图像特征向量;
通过自编码器对所述文本特征向量和所述图像特征向量进行降维,获得所述文本特征向量的文本表征和所述图像特征向量的图像表征,所述文本表征和所述图像表征的特征维度相同;
获取所述文本表征和所述图像表征之间的典型相关系数;
基于所述文本表征、所述图像表征以及所述典型相关系数,通过多模态表示学习获取所述共同表征。
可选的,爬取所述目标网址对应的文本信息和图像信息,包括:
爬取所述目标网址对应的目标网页中的网页文本以及所述目标网页的网页截图;
爬取所述目标网页中的子链接以及所述子链接对应的子链接文本及子链接图像;
将所述网页文本和所述子链接文本作为所述目标网址对应的文本信息,将所述网页截图和所述子链接图像作为所述目标网址对应的图像信息。
可选的,所述获取待识别的目标网址,包括:
从向风险防控平台内获取投诉网址和/或所述风险防控平台的进件网址作为所述目标网址;以及,
从互联网中获取满足预设风险规则的网址作为所述目标网址。
可选的,所述从互联网中获取满足预设风险规则的网址作为所述目标网址,包括:
根据风险关键词进行网址检索获取所述目标网址;和/或,
对论坛类网页进行风险投诉信息监控,基于监控获得的所述风险投诉信息抽取所述目标网址。
第二方面,本说明书实施例提供一种风险网址的识别装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010454581.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内胆压力试验防爆装备
- 下一篇:一种自动化机床用散热装置