[发明专利]一种网站行业类型快速识别的方法在审
申请号: | 201811586061.5 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109753619A | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 宋建昌;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F17/27 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及网站行业类型识别技术,旨在提供一种网站行业类型快速识别的方法。该种网站行业类型快速识别的方法包括下述步骤:将目标网站依次匹配基础规则,当出现统计分大于或等于100的行业类型时,则将该行业类型作为目标网站的行业类型;当无法利用基础规则判断时,则将目标网站分别匹配所有二级规则,最后将统计分最高的行业类型作为目标网站的行业类型。本发明提供了一套识别行业网站行业类型的完整技术方案,能基于规则匹配识别网站行业类型,并能自动完善规则及对规则进行自动更新,方便大家对行业网站的使用。 | ||
搜索关键词: | 行业类型 网站 目标网站 快速识别 基础规则 匹配 规则匹配 自动更新 统计 | ||
【主权项】:
1.一种网站行业类型快速识别的方法,网站的行业类型包括政务网站、教育行业网站、金融行业网站、企业网站、个人网站和社区网站,其特征在于,所述网站行业类型快速识别的方法具体包括下述步骤:步骤(1):预先设置每个行业类型的基础规则,基础规则包括域名后缀规则、主体中是否有全国党政机关事业单位标志及链接规则、标题中是否有金融关键字规则、标题中是否有行政机关关键字规则、标题中是否有企业关键字规则、标题中是否有社区关键字规则和标题中是否有教育关键字规则;且每条基础规则设有分值,分值范围为60‑100;步骤(2):将目标网站依次匹配基础规则,当网站与该条基础规则匹配时,则将该基础规则的分值加至该基础规则对应行业类型的统计分,且每个行业类型的统计分初始值为0;当出现统计分大于或等于100的行业类型时,则不再进行后续步骤,将该行业类型作为目标网站的行业类型;当匹配完所有基础规则,所有行业类型的统计分都小于100,则继续执行步骤(3);步骤(3):将所有行业类型的统计分初始化为0,将目标网站分别匹配所有二级规则,当网站与对应行业类型的二级规则匹配时,则将该二级规则的分值加至该行业类型的统计分;所述二级规则通过判断网站的标题、网页头部和底部是否含有网站行业类型对应的关键词或规则结构,对网站的行业类型进行匹配;且每条二级规则每条二级规则都设有分值,分值范围为60‑100;匹配完所有二级规则后,将统计分最高的行业类型作为目标网站的行业类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811586061.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种品牌信息管理系统及其操作方法
- 下一篇:网页文档处理方法和系统