[发明专利]基于网站的目标行为识别方法、装置和电子装置在审
申请号: | 202011342754.7 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112328942A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 陈和国;戚华春 | 申请(专利权)人: | 杭州安恒信息安全技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06K9/00;G06F16/33 |
代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 范丽霞 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网站 目标 行为 识别 方法 装置 电子 | ||
本申请涉及一种基于网站的目标行为识别方法、装置和电子装置,其中,该基于网站的目标行为识别方法包括:从目标网站中获取待识别的目标网页;提取所述目标网页的文字,并将所述目标网页的文字与预设标准进行比对打分,得到所述目标网页的目标行为评价分;判断所述目标行为评价分是否大于设定阈值;若是,则判定所述目标网页存在所述目标行为,所述目标行为至少包括传销行为。本发明通过提取网络中的目标网页的文字,并将目标网页的文字与预设评分标准进行比对打分,得到目标网页的目标行为评价分,从而根据目标行为评价分来判断目标网页是否存在传销行为,从而有效识别出网络传销行为。
技术领域
本申请涉及数据库漏洞扫描技术领域,特别是涉及基于网站的目标行为识别方法、装置和电子装置。
背景技术
随着互联网的发展,互联网已经进入了各个领域。然而同样随着而来的是,互联网也被一些传统的非法行业所使用,如用来网络传销等。经过公安部门统计发现,近些年网络传销在整体传销行为当中的占比不断攀升,如何有效识别网络传销行为,成为迫切需要解决的技术问题。
目前针对相关技术中如何有效识别网络传销行为的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于网站的目标行为识别方法、装置和电子装置和存储介质,以至少解决相关技术中如何有效识别网络传销行为的问题。
第一方面,本申请实施例提供了一种基于网站的目标行为识别方法,所述方法包括:
从目标网站中获取待识别的目标网页;
提取所述目标网页的文字,并将所述目标网页的文字与预设标准进行比对打分,得到所述目标网页的目标行为评价分;
判断所述目标行为评价分是否大于设定阈值;
若是,则判定所述目标网页存在所述目标行为,所述目标行为至少包括传销行为。
在其中一些实施例中,从目标网站中获取待识别的目标网页的步骤包括:
获取用户输入的项目名和标题关键词;
基于所述项目名确定所述目标网站;
从所述目标网站中搜索标题含有所述标题关键词或含有所述标题关键词中的预设字的网页,以得到所述目标网页。
在其中一些实施例中,从目标网站中获取待识别的目标网页的步骤之后,还包括:
当所述目标网页存在多个时,将每一所述目标网页的标题与预设标准进行比对打分,得到每一所述目标网页的标题分值;
提取所述目标网页的文字的步骤包括:
按照所述标题分值从高到低的排列顺利,依序提取每一所述目标网页的文字。
在其中一些实施例中,所述目标网页的文字包括标题文字和正文文字,将所述目标网页的文字与预设标准进行比对打分的步骤包括:
将所述目标网页的标题文字和正文文字分别与预设关键词、所述项目名、以及所述项目名中的预设字进行比对打分。
在其中一些实施例中,所述提取所述目标网页的文字的步骤包括:
判断所述目标网页的网页内容是否包含图片;
若否,则直接提取所述目标网页的文字;
若是,则先利用OCR识别技术识别所述图片当中的文字,再提取所述目标网页的文字。
在其中一些实施例中,在利用OCR识别技术识别所述图片当中的文字的步骤中,还包括:
提取所述图片的预设参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息安全技术有限公司,未经杭州安恒信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011342754.7/2.html,转载请声明来源钻瓜专利网。