[发明专利]网页元素分类方法在审
申请号: | 202011360926.3 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112507186A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 易超;陈贞谛;张舒汇;贺赞贤 | 申请(专利权)人: | 北京数立得科技有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/951 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 元素 分类 方法 | ||
1.一种网页元素分类方法,其特征在于,包括:
收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素;
对所有第一网页元素进行粗分类,得到粗分类结果,对所述粗分类结果中的每一类细分,得到细分类结果,根据所述粗分类结果和所述细分类结果得到每一个第一网页元素的粗分类标签和细分类标签,将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集;
利用所述样本数据集训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每个粗分类器下设置有多个细分类器;
将第二网页进行分割,得到所述第二网页包含的多个第二网页元素,将所有第二网页元素输入所述分类模型,得到第二网页元素的分类结果,所述分类结果中每一个第二网页元素具有粗分类标签和细分类标签。
2.根据权利要求1所述方法,其特征在于,得到所述第一网页包含的对应的第一网页元素后,还包括:
采用字符串匹配的方法来对第一网页元素进行识别,去除重复的网页元素。
3.根据权利要求1所述方法,其特征在于:
所述粗分类标签包括:登录类、表单类、列状内容类、块状内容类、搜索类;
属于所述登录类下的细分类标签包括:用户密码登录、用户密码验证码登录、手机号短信确认登录;
属于所述表单类下的细分类标签包括:找回密码、填表、记录表、信息表;
属于所述列状内容类下属的多个小类包括:列状内容、列状目录;
属于所述块状内容类下的细分类标签包括:纯文本内容、文本图片内容;
属于所述搜索类下的细分类标签包括:普通搜索、复杂搜索。
4.根据权利要求1所述方法,其特征在于,收集多个第一网页作为原始数据集,对第一网页进行分割,得到第一网页包含的第一网页元素,包括:
使用预设的网页解析模块加载并分割第一网页,得到第一网页包含的第一网页元素;
提取第一网页的网页特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的网页特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。
5.根据权利要求1所述方法,其特征在于,所述方法还包括:
定义第一网页元素的元素特征向量;
将第一网页元素和第一网页元素对应的粗分类标签、细分类标签作为样本数据集,包括:
将第一网页元素、第一网页元素对应的元素特征向量和第一网页元素对应的粗分类标签、细分类标签作为样本数据集。
6.根据权利要求5所述方法,其特征在于,所述元素特征向量包括以下任意一者:
数值型元素特征向量,所述数值型元素特征向量包括:网页元素各标签的数量;
离散型元素特征向量,所述离散型元素特征向量包括:网页元素是否包含password字段。
7.根据权利要求1所述方法,其特征在于,利用所述样本数据集训练预设模型,得到分类模型,包括:
选择预设的机器学习库中的模型作为预设模型,设置超参数,使用所述样本数据集训练所选模型;
其中,所述预设的机器学习库中的模型包括:
逻辑斯蒂回归模型、支持向量机模型、多层神经网络模型、梯度提升树模型。
8.根据权利要求1所述方法,其特征在于,利用所述样本数据集训练预设模型,得到分类模型,包括:
将所述样本数据集按照预设比例分为训练数据和测试数据;
利用所述训练数据训练预设模型,得到分类模型,所述分类模型包括多类粗分类器,每类粗分类器下设置有多个细分类器。
9.根据权利要求8所述方法,其特征在于,还包括:
将所述测试数据中的第一网页元素输入所述分类模型中,得到分类结果,将所述分类结果与测试数据集中记录的粗分类标签和细分类标签进行对比,评估所述分类模型的分类效果。
10.根据权利要求1所述方法,其特征在于,还包括:
对所述多个已分类第二网页元素进行关键词匹配,当包含所述关键词的已分类第二网页元素的标签属于预设列表一时,为所述第二网页分配高等程度的检索权重,所述预设列表一包括块状类、列表类;
当包含所述关键词的已分类第二网页元素的标签属于预设列表二时,为所述第二网页分配中等程度检索权重,所述预设列表二包括:登陆类、搜索类;
将所述第二网页按照所述检索权重由大到小的顺序进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数立得科技有限公司,未经北京数立得科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011360926.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种流量仪表的可调节防冲设备
- 下一篇:一种收集潲水油环保设备