[发明专利]异常网站的识别方法、装置和异常对抗行为的识别方法有效
申请号: | 202010147052.7 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111401416B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 蒋晨之 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/418;G06V20/62;G06V10/82;G06F21/64;G06F16/958 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 周达;刘飞 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常 网站 识别 方法 装置 对抗 行为 | ||
本说明书提供了异常网站的识别方法、装置和异常对抗行为的识别方法。在一个实施例中,异常网站的识别方法通过利用事先训练好的预设的对抗行为识别模型先从目标网站的网页的html文本数据、网页的页面OCR文本数据和网页的页面截图中,分别提取得到与网页的html文本对应的第一文本特征、与页面的OCR文本对应的第二文本特征,和与页面截图对应的图像特征;再综合根据上述三种不同类型的数据特征,通过识别目标网站的网页是否存在异常对抗行为,来确定目标网站是否是异常网站。从而能够较为精准地通过识别异常对抗行为找到可能隐藏有违规信息或敏感信息的异常网站。
技术领域
本说明书属于互联网技术领域,尤其涉及异常网站的识别方法、装置和异常对抗行为的识别方法。
背景技术
在互联网领域,常常有些违规的异常网站会通过对与网站的网页数据进行篡改,来隐藏网站上的违规信息或敏感信息,逃避网络监管。
因此,亟需一种能够精准地识别出隐藏有违规信息或敏感信息的异常网站。
发明内容
本说明书提供了一种异常网站的识别方法、装置和异常对抗行为的识别方法,能够较为精准地通过识别发现网站网页的异常对抗行为来找到可能隐藏有违规信息或敏感信息的异常网站。
本说明书提供的一种异常网站的识别方法、装置和异常对抗行为的识别方法是这样实现的:
一种异常网站的识别方法,包括:获取目标网站的网页的html文本数据,和网页的页面截图;从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。
一种异常对抗行为的识别方法,包括:获取目标网站的网页的html文本数据、网页的页面截图和页面的文本数据;从所述网页的html文本数据中提取出第一文本特征,从所述页面的文本数据中提取出第二文本特征,从所述页面截图中提取出图像特征;根据所述第一文本特征、第二文本特征和图像特征,确定所述目标网站是否存在异常对抗行为。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取目标网站的网页的html文本数据,和网页的页面截图;从所述网页的页面截图中提取得到页面的OCR文本数据;利用预设的对抗行为识别模型对所述网页的html文本数据、页面的OCR文本数据,和页面截图进行识别处理,得到对应的识别处理结果;其中,所述预设的对抗行为识别模型至少包括第一文本特征提取子网络、第二文本特征提取子网络和图像特征提取子网络,所述第一文本特征提取子网络用于从网页的html文本数据中提取出第一文本特征,所述第二文本特征提取子网络用于从页面的OCR文本数据中提取出第二文本特征,所述图像特征提取子网络用于从所述页面截图中提取出图像特征,所述识别处理结果根据所述第一文本特征、第二文本特征和图像特征确定;根据所述识别处理结果,确定所述目标网站是否为异常网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010147052.7/2.html,转载请声明来源钻瓜专利网。