[发明专利]网页关键词出现频次检测方法及装置有效
申请号: | 201410742890.3 | 申请日: | 2014-12-05 |
公开(公告)号: | CN104391977B | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 谭紫萱;杨韬;王晓群;张松 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 李志刚,吴贵明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 关键词 出现 频次 检测 方法 装置 | ||
技术领域
本发明涉及互联网领域,具体而言,涉及一种网页关键词出现频次检测方法及装置。
背景技术
在互联网应用中,经常需要对网络关键词的出现频次进行统计,例如,对品牌词曝光量进行统计。品牌词曝光量的统计是以量化的形式实现定期检测和统计品牌词在互联网的曝光情况。随着互联网的不断发展和普及,品牌词在互联网中的曝光情况越来越能反映一个品牌在互联网中的口碑和影响力,并且已经成为品牌广告主优化品牌策划的一个重要的参考指标。
利用搜索引擎检索品牌广告主所提供的产品或服务,进而可以统计在自然搜索结果中品牌名称的曝光率,同时可以对比竞争对手的品牌曝光率。品牌名称在自然搜索结果中的曝光量统计,需要在自然搜索结果中所呈现的前N页的每一个网页中统计该网页包含的指定的品牌词的个数。
现有技术是人工利用搜索引擎手动检索品牌广告主的产品名称或者服务名称,再人工地从检索结果中点击进入每一个网页,查看品牌名称是否出现并进行计数,直到前N个页面都统计完毕,再手动计算曝光率。
由于自然搜索结果是基于海量互联网数据检索的结果,数据量大,变化频率高,因此,现有的解决方案不能大面积、快速地对自然搜索结果中品牌词的出现频率进行检测,准确性和及时性都难以保证。同时,在某些情况下需要同时统计竞争对手品牌名称的曝光频率,这也为统计人员带来了相当大的工作量。
针对相关技术中对网页关键词的出现频次进行检测时效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页关键词出现频次检测方法及装置,以解决对网页关键词的出现频次进行检测时效率较低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页关键词出现频次检测方法。
根据本发明的网页关键词出现频次检测方法包括:确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。
进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,该方法还包括:分别检测第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征,其中,情感倾向特征包括正面情感倾向特征和负面情感倾向特征;分别统计第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。
进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,该方法还包括:统计第二待检测网页关键词对应的多个链接地址的个数;根据在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率。
进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,该方法还包括:确定第三待检测网页关键词,其中,第三待检测网页关键词属于第二待检测网页关键词,第三待检测网页关键词和第一待检测网页关键词为不同的网页关键词;检测在多个网页的网页内容中出现第三待检测网页关键词的网页的个数;将在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的网页内容中出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。
进一步地,分别获取多个链接地址对应的多个网页的网页内容包括:利用爬虫爬取技术分别获取多个链接地址对应的多个网页的网页内容。
进一步地,对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址包括:确定预设参考数量,其中,预设参考数量为预先设定的获取第二待检测网页关键词对应的链接地址的数量;对第二待检测网页关键词发出访问请求,获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;按照搜索热度由强到弱的顺序,从第二待检测网页关键词对应的多个链接地址中获取数量为预设参考数量的多个链接地址。
为了实现上述目的,根据本发明的另一方面,提供了一种网页关键词出现频次检测装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410742890.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分类方法和装置
- 下一篇:一种MIS中模糊查询方法