[发明专利]一种URL分类方法及系统在审
申请号: | 201810156915.X | 申请日: | 2018-02-24 |
公开(公告)号: | CN108334630A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 黄世纬 | 申请(专利权)人: | 上海康斐信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良;吴辉辉 |
地址: | 200333 上海市普陀*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 分类信息 分类标记 词组 词汇分析 网页内容 信息分类 用户行为 预设 网页 记录 | ||
1.一种URL分类方法,其特征在于,包括步骤:
判断在预设的URL分类库中是否存在待分类URL的分类信息;
当所述URL分类库中不存在所述待分类URL的分类信息时,从所述待分类URL对应的网页中,获取表达网页内容的特征词组;
对所述特征词组进行词汇分析,以生成表达用户行为的分类标记;
根据所述待分类URL以及所述待分类URL对应的分类标记,生成对应的分类信息,并记录在所述URL分类库中。
2.根据权利要求1所述的URL分类方法,其特征在于,所述判断在预设的URL分类库中是否存在待分类URL的分类信息包括:
截取所述待分类URL的特征字符串;
根据所述特征字符串查询所述URL分类库,以判断所述URL分类库中是否存在所述待分类URL的分类信息。
3.根据权利要求2所述的URL分类方法,其特征在于,所述根据所述待分类URL以及所述待分类URL对应的分类标记,生成对应的分类信息包括:
根据所述待分类URL对应的所述特征字符串和所述分类标记,生成对应的分类信息。
4.根据权利要求1所述的URL分类方法,其特征在于,所述从所述待分类URL对应的网页中,获取表达网页内容的特征词组包括:
通过访问所述待分类URL,获取待分类URL对应的网页内容;
确定表达所述网页内容的特征词组。
5.根据权利要求1所述的URL分类方法,其特征在于,所述特征词组至少包括所述待分类URL对应网页的网页标题信息。
6.一种URL分类系统,其特征在于,包括:
判断模块,用于判断在预设的URL分类库中是否存在待分类URL的分类信息;
特征词组获取模块,用于当所述URL分类库中不存在所述待分类URL的分类信息时,从所述待分类URL对应的网页中,获取表达网页内容的特征词组;
分类标记生成模块,用于对所述特征词组进行词汇分析,以生成表达用户行为的分类标记;
分类模块,用于根据所述待分类URL以及所述待分类URL对应的分类标记,生成对应的分类信息,并记录在所述URL分类库中。
7.根据权利要求6所述的URL分类系统,其特征在于,所述判断模块包括:
字符串截取子模块,用于截取所述待分类URL的特征字符串;
判断子模块,用于根据所述特征字符串查询所述URL分类库,以判断所述URL分类库中是否存在所述待分类URL的分类信息。
8.根据权利要求7所述的URL分类系统,其特征在于,所述分类模块包括:
分类信息生成子模块,用于根据所述待分类URL对应的所述特征字符串和所述分类标记,生成对应的分类信息。
9.根据权利要求6所述的URL分类系统,其特征在于,所述特征词组获取模块包括:
URL访问子模块,用于通过访问所述待分类URL,获取待分类URL对应的网页内容;
特征词组确定子模块,用于确定表达所述网页内容的特征词组。
10.根据权利要求6所述的URL分类系统,其特征在于,所述特征词组至少包括所述待分类URL对应网页的网页标题信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海康斐信息技术有限公司,未经上海康斐信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810156915.X/1.html,转载请声明来源钻瓜专利网。