[发明专利]一种搜索不良视频网站的方法有效
申请号: | 201210465213.2 | 申请日: | 2012-11-16 |
公开(公告)号: | CN103020123A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 朱明;尹文科;孙永录 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;赵镇勇 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 不良 视频 网站 方法 | ||
技术领域
本发明涉及互联网信息检索技术领域,尤其涉及一种搜索不良视频网站的方法。
背景技术
随着互联网技术的飞速发展,人们对互联网依赖日益强烈,互联网信息内容,尤其是多媒体内容,也在急速增长。与此同时,互联网络信息的多媒体内容中的不良视频内容亦迅猛增长。
目前,互联网中的不良视频服务网站主要包括:(1)直接提供不良视频内容点播服务的视频服务网站,这类网站特点是按照多种分类标准,以目录浏览方式提供不良视频内容点播服务;(2)提供P2P不良视频资源共享下载的服务网站;如BT种子文件所指向的主要不良视频资源下载网站;(3)提供P2P实时不良视频直播的服务网站。
由于上述三类不良视频服务网站数量非常之多,而且还在不断增加和变化。因此,需要有一种信息搜索技术方案,以便于可以从互联网海量信息中,自动地发现和检索出包含不良视频内容的网站。然而,现有的互联网搜索引擎,如Google和Baidu等搜索引擎,仍然无法准确有效地搜索出提供不良视频服务的网站。
发明内容
本发明的目的是提供一种搜索不良视频网站的方法,以便能够准确有效地从少量的互联网信息中自动地发现和检索出包含不良视频内容的网站。
本发明的目的是通过以下技术方案实现的:
一种搜索不良视频网站的方法,包括:
根据搜索关键词数据库中的搜索关键词构造搜索请求;
获取搜索引擎根据所述搜索请求返回的搜索结果,并获取搜索结果中的网站地址和关联搜索关键词;
根据当前搜索结果中的关联搜索关键词与视频服务网站的主题的相关程度以及产生新的不良网站地址的能力,更新所述搜索关键词数据库中的搜索关键词;
判断搜索结果中的网站地址对应的网页是否属于视频服务类网页,若属于,则抽取出网站的名称,将该网站名称和网址加入到视频服务网站数据库中;若不属于,则丢弃该网站地址;
判断视频服务网站数据库中的网站地址的健康程度,并将健康程度低于第一健康度阈值的网站网址存入不良视频网站数据库中。
该方法还包括:
根据所述搜索结果中的与视频服务主题相关的网页中的元素标签中的关键词和描述信息中的内容,更新所述搜索关键词数据库;
和/或,
根据所述搜索结果中的与视频服务主题相关的网页中的转向其他网站的链接,更新所述搜索关键词数据库。
所述判断搜索结果中的网站地址对应的网页是否属于视频服务类网页的步骤包括:
载入网站网址对应的网页并运行网页上的脚本,判断是否存在生成播放器的特征超文本标记语言HTML标签,若存在,则确定该网页中的候选播放器;再分析所述候选播放器对象的视觉特征,以确定播放器播放的视频画面的大小是否满足预定的尺寸阀值,若是,则确定该网站网址对应的网页为视频服务类网页;
或者,
根据所述网站地址对应的网页与视频网页模板中的网页的匹配度判断该网站地址对应的网页是否为视频服务类网页。
在确定所述网站网址对应的网页为视频服务类网页后,将该网页存为视频网页模板,所述视频网页模板用于作为判断其他网页是否为视频服务类网页的依据。
更新所述搜索关键词数据库中的搜索关键词的步骤包括:
判断所述搜索结果中的关联搜索关键词与视频服务网站的主题相关程度,若当前返回的搜索结果中视频服务网站类的网址的比例超过预定值,则判断当前搜索关键词产生新的网站地址的能力,若当前返回的搜索结果中网站网址包含于预定的候选网址数据库中的比例低于预定值,则将本次搜索结果中的关联搜索关键词增加到所述搜索关键词数据库中,所述候选网址数据库中记录着根据之前的搜索结果获得的网站网址。
在判断视频服务网站数据库中的网站地址的健康程度之前,还包括将所述视频服务网站数据库中的非首页地址合并规约为视频服务网站首页的地址的步骤,且该步骤包括:
对于视频服务网站数据库中的两个不同的网站,判断两者的主机名称是否相同,若相同,则判断两者之间对应的网站名称是否相同,若相同,则比较两者的路径深度的大小,将路径深度大的网站规约为路径深度小的网站,依次类推,直到处理完成所述视频服务网站数据库中的所有网站。
提取所述网站名称的方式包括:
提取出同一个网站下不同网页标题标签的内容,并利用最长公共字符串算法提取出同一个网站不同网页标题标签中出现频率最高的内容作为网站的名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210465213.2/2.html,转载请声明来源钻瓜专利网。