[发明专利]一种企业相关网页主题测量方法及系统有效
申请号: | 201710354041.4 | 申请日: | 2017-05-18 |
公开(公告)号: | CN107357801B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 辛柯俊 | 申请(专利权)人: | 辛柯俊 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955;G06F16/957 |
代理公司: | 北京中企鸿阳知识产权代理事务所(普通合伙) 11487 | 代理人: | 郭鸿雁 |
地址: | 210049 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种企业相关网页主题测量方法及系统,包括:获取样本网页信息,从网页信息中提取网页主题,并计算网页主题的字数;计算网页中符合下述条件的词汇的数量;搜索友情链接的URL地址,查找到该链接的URL的网页的友情链接是否包含自己源网页域名;计算网页中的每个链接的URL地址不是自己源网页域名的数量和属于自己源网页域名的数量;计算网页页面中图片数量;按照在HTML中出现的顺序提取多个词语作为一个词表序列,计算词表序列中每个词同时出现的概率;对于给定网页和样本网页计算上述参,计算给定网页的与样本网页方差,确定网页主题。本发明对爬虫爬取的网页进行相同的计算测量和分值比对,进行分类定性,得到网页主题。 | ||
搜索关键词: | 一种 企业 相关 网页 主题 测量方法 系统 | ||
【主权项】:
一种企业相关网页主题测量方法,其特征在于,包括如下步骤:步骤S1,获取样本企业网页信息,从所述网页信息中提取网页主题,并计算所述网页主题的字数P1;步骤S2,计算网页中符合下述条件的词汇的数量,包括:HTML标签独立包围、具有超链接、四字词汇;步骤S3,搜索友情链接的URL地址,查找到该链接的URL的网页的友情链接是否包含自己源网页域名,计算链接回的友情链接P3;步骤S4,计算网页中的每个链接的URL地址不是自己源网页域名的数量P4和属于自己源网页域名的数量P5;步骤S5,计算网页页面中图片数量P6;步骤S6,提取网页中HTML标签独立包围、具有超链接且为四字词汇的词语,按照在HTML中出现的顺序提取多个词语作为一个词表序列,并计算词表序列中每个词同时出现在样本网页的菜单词表序列中出现的概率P7,其中,所述四字词汇由从网页中提取出的词汇根据语音节奏性拼凑成四字词汇;步骤S7,对于给定网页和样本网页计算上述参数P1至P7,并计算给定网页的P1至P7,与样本网页的P1至P7的方差,以得到所述给定网页和样本网页的相似性,确定网页主题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辛柯俊,未经辛柯俊许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710354041.4/,转载请声明来源钻瓜专利网。