[发明专利]基于网站的目标行为识别方法、装置和电子装置在审
申请号: | 202011342754.7 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112328942A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 陈和国;戚华春 | 申请(专利权)人: | 杭州安恒信息安全技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06K9/00;G06F16/33 |
代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 范丽霞 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网站 目标 行为 识别 方法 装置 电子 | ||
1.一种基于网站的目标行为识别方法,其特征在于,所述方法包括:
从目标网站中获取待识别的目标网页;
提取所述目标网页的文字,并将所述目标网页的文字与预设标准进行比对打分,得到所述目标网页的目标行为评价分;
判断所述目标行为评价分是否大于设定阈值;
若是,则判定所述目标网页存在所述目标行为,所述目标行为至少包括传销行为。
2.根据权利要求1所述的基于网站的目标行为识别方法,其特征在于,从目标网站中获取待识别的目标网页的步骤包括:
获取用户输入的项目名和标题关键词;
基于所述项目名确定所述目标网站;
从所述目标网站中搜索标题含有所述标题关键词或含有所述标题关键词中的预设字的网页,以得到所述目标网页。
3.根据权利要求1或2所述的基于网站的目标行为识别方法,其特征在于,从目标网站中获取待识别的目标网页的步骤之后,还包括:
当所述目标网页存在多个时,将每一所述目标网页的标题与预设标准进行比对打分,得到每一所述目标网页的标题分值;
提取所述目标网页的文字的步骤包括:
按照所述标题分值从高到低的排列顺利,依序提取每一所述目标网页的文字。
4.根据权利要求2所述的基于网站的目标行为识别方法,其特征在于,所述目标网页的文字包括标题文字和正文文字,将所述目标网页的文字与预设标准进行比对打分的步骤包括:
将所述目标网页的标题文字和正文文字分别与预设关键词、所述项目名以及所述项目名中的预设字进行比对打分。
5.根据权利要求1所述的基于网站的目标行为识别方法,其特征在于,所述提取所述目标网页的文字的步骤包括:
判断所述目标网页的网页内容是否包含图片;
若否,则直接提取所述目标网页的文字;
若是,则先利用OCR识别技术识别所述图片当中的文字,再提取所述目标网页的文字。
6.根据权利要求5所述的基于网站的目标行为识别方法,其特征在于,在利用OCR识别技术识别所述图片当中的文字的步骤中,还包括:
提取所述图片的预设参数;
根据所述预设参数对利用OCR识别技术识别得到的文字进行筛除。
7.根据权利要求6所述的基于网站的目标行为识别方法,其特征在于,将所述目标网页的文字与预设标准进行比对打分,得到所述目标网页的目标行为评价分的步骤之后,还包括:
根据所述图片的参数对所述目标网页进行打分,并基于打分结果更新所述目标网页的目标行为评价分。
8.一种基于网站的目标行为识别装置,其特征在于,所述装置包括:
网页获取模块,用于从目标网站中获取待识别的目标网页;
网页评分模块,用于提取所述目标网页的文字,并将所述目标网页的文字与预设标准进行比对打分,得到所述目标网页的目标行为评价分;
评分判断模块,用于判断所述目标行为评价分是否大于设定阈值;
行为判定模块,用于当判断到所述目标行为评价分大于所述设定阈值时,判定所述目标网页存在所述目标行为,所述目标行为至少包括传销行为。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的基于网站的目标行为识别方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求至7中任一项所述的基于网站的目标行为识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息安全技术有限公司,未经杭州安恒信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011342754.7/1.html,转载请声明来源钻瓜专利网。