[发明专利]一种企业相关网页主题测量方法及系统有效
申请号: | 201710354041.4 | 申请日: | 2017-05-18 |
公开(公告)号: | CN107357801B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 辛柯俊 | 申请(专利权)人: | 辛柯俊 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/957 |
代理公司: | 北京中企鸿阳知识产权代理事务所(普通合伙) 11487 | 代理人: | 郭鸿雁 |
地址: | 210049 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 企业 相关 网页 主题 测量方法 系统 | ||
本发明提出了一种企业相关网页主题测量方法及系统,包括:获取样本网页信息,从网页信息中提取网页主题,并计算网页主题的字数;计算网页中符合下述条件的词汇的数量;搜索友情链接的URL地址,查找到该链接的URL的网页的友情链接是否包含自己源网页域名;计算网页中的每个链接的URL地址不是自己源网页域名的数量和属于自己源网页域名的数量;计算网页页面中图片数量;按照在HTML中出现的顺序提取多个词语作为一个词表序列,计算词表序列中每个词同时出现的概率;对于给定网页和样本网页计算上述参,计算给定网页的与样本网页方差,确定网页主题。本发明对爬虫爬取的网页进行相同的计算测量和分值比对,进行分类定性,得到网页主题。
技术领域
本发明涉及计算机网络技术领域,特别涉及一种企业相关网页主题测量方法及系统。
背景技术
现有的企业信息综合网站,大都是对企业信息的简单罗列,并且是主要针对单一企业的信息汇总和分析。现有技术的缺点是存在缺少一种对企业之间的相互关系进行分析的方式。其中,如何通过各个企业的基本信息实现计算机自动化对该企业的主题进行确定,是当前需要解决的技术问题。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种企业相关网页主题测量方法及系统。
为了实现上述目的,本发明的实施例提供一种企业相关网页主题测量方法及系统,包括如下步骤:
步骤S1,获取样本网页信息,从所述网页信息中提取网页主题,并计算所述网页主题的字数P1;
步骤S2,计算网页中符合下述条件的词汇的数量,包括:HTML标签独立包围、具有超链接、四字词汇;
步骤S3,搜索友情链接的URL地址,查找到该链接的URL的网页的友情链接是否包含自己源网页域名,计算链接回的友情链接P3;
步骤S4,计算网页中的每个链接的URL地址不是自己源网页域名的数量P4和属于自己源网页域名的数量P5;
步骤S5,计算网页页面中图片数量P6;
步骤S6,提取网页中HTML标签独立包围、具有超链接且为四字词汇的词语,按照在HTML中出现的顺序提取多个词语作为一个词表序列,并计算词表序列中每个词同时出现在样本网页的菜单词表序列中出现的概率P7,其中,所述四字词汇由从网页中提取出的词汇根据语音节奏性拼凑成四字词汇;
步骤S7,对于给定网页和样本网页计算上述参数P1至P7,并计算给定网页的P1至P7,与样本网页的P1至P7的方差,以得到所述给定网页和样本网页的相似性,确定网页主题。
进一步,所述网页信息包括:网页标题、网页菜单、友情链接、内外链接、图片数量、菜单文字。
进一步,在所述步骤S7中,采用F-检验方法计算给定网页的P1至P7,与样本网页的P1至P7的方差。
进一步,在所述步骤S7中,P1-P7设置不同权重进行调试。
本发明实施例还提出一种企业相关网页主题测量系统,包括:
网页获取模块,用于获取样本网页信息,从所述网页信息中提取网页主题,并计算所述网页主题的字数P1;
词汇数量计算模块,用于计算网页中符合下述条件的词汇的数量,包括:HTML标签独立包围、具有超链接、四字词汇;
友情链接搜索模块,用于搜索友情链接的URL地址,查找到该链接的URL的网页的友情链接是否包含自己源网页域名,计算链接回的友情链接P3;
数量计算模块,用于计算网页中的每个链接的URL地址不是自己源网页域名的数量P4和属于自己源网页域名的数量P5,以及网页页面中图片数量P6;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辛柯俊,未经辛柯俊许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710354041.4/2.html,转载请声明来源钻瓜专利网。