[发明专利]一种网站行业类型快速识别的方法在审

专利信息
申请号: 201811586061.5 申请日: 2018-12-25
公开(公告)号: CN109753619A 公开(公告)日: 2019-05-14
发明(设计)人: 宋建昌;范渊 申请(专利权)人: 杭州安恒信息技术股份有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06F17/27
代理公司: 杭州中成专利事务所有限公司 33212 代理人: 周世骏
地址: 310051 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及网站行业类型识别技术,旨在提供一种网站行业类型快速识别的方法。该种网站行业类型快速识别的方法包括下述步骤:将目标网站依次匹配基础规则,当出现统计分大于或等于100的行业类型时,则将该行业类型作为目标网站的行业类型;当无法利用基础规则判断时,则将目标网站分别匹配所有二级规则,最后将统计分最高的行业类型作为目标网站的行业类型。本发明提供了一套识别行业网站行业类型的完整技术方案,能基于规则匹配识别网站行业类型,并能自动完善规则及对规则进行自动更新,方便大家对行业网站的使用。
搜索关键词: 行业类型 网站 目标网站 快速识别 基础规则 匹配 规则匹配 自动更新 统计
【主权项】:
1.一种网站行业类型快速识别的方法,网站的行业类型包括政务网站、教育行业网站、金融行业网站、企业网站、个人网站和社区网站,其特征在于,所述网站行业类型快速识别的方法具体包括下述步骤:步骤(1):预先设置每个行业类型的基础规则,基础规则包括域名后缀规则、主体中是否有全国党政机关事业单位标志及链接规则、标题中是否有金融关键字规则、标题中是否有行政机关关键字规则、标题中是否有企业关键字规则、标题中是否有社区关键字规则和标题中是否有教育关键字规则;且每条基础规则设有分值,分值范围为60‑100;步骤(2):将目标网站依次匹配基础规则,当网站与该条基础规则匹配时,则将该基础规则的分值加至该基础规则对应行业类型的统计分,且每个行业类型的统计分初始值为0;当出现统计分大于或等于100的行业类型时,则不再进行后续步骤,将该行业类型作为目标网站的行业类型;当匹配完所有基础规则,所有行业类型的统计分都小于100,则继续执行步骤(3);步骤(3):将所有行业类型的统计分初始化为0,将目标网站分别匹配所有二级规则,当网站与对应行业类型的二级规则匹配时,则将该二级规则的分值加至该行业类型的统计分;所述二级规则通过判断网站的标题、网页头部和底部是否含有网站行业类型对应的关键词或规则结构,对网站的行业类型进行匹配;且每条二级规则每条二级规则都设有分值,分值范围为60‑100;匹配完所有二级规则后,将统计分最高的行业类型作为目标网站的行业类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811586061.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top