[发明专利]基于网页分类的索引网络构建方法及其索引网构建器有效
申请号: | 201210445658.4 | 申请日: | 2012-11-09 |
公开(公告)号: | CN102968466A | 公开(公告)日: | 2013-03-13 |
发明(设计)人: | 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春;张洋劼 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海天协和诚知识产权代理事务所 31216 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网页 分类 索引 网络 构建 方法 及其 | ||
技术领域
本发明涉及对互联网信息资源的管理与组织,具体涉及基于分类的海量网页的组织与管理方法以及实现该方法的软件模块。
背景技术
面对互联网海量规模的信息资源,搜索引擎已经成为人们生活和工作中必不可少的信息获取工具。搜索技术发展水平的高低,也因此不可避免的对互联网应用的便捷程度以及社会的信息化程度产生影响。根据中国互联网络信息中心(CNNIC)2011年7月的统计结果,我国4.85亿网民中使用搜索引擎的用户数量达到3.86亿,使用率达到79.6%,显示搜索引擎是网民群体中受众最广的网络应用。
在搜索引擎中,对用户需求搜索之后最终展示出来的仅仅是一个或者一些相关的网页或者内容。展示出来的内容仅仅是单一的对用户的需求理解,以及将用户需求与网页内容进行联系,是对用户需求进行初步的理解。
发明内容
本发明的目的在于克服现有技术的不足,通过索引网构建器实现一种基于网页分类的索引网络构建方法,其输入为已经分好类的网页,输出为一个建立在分好类网页基础上的索引网。构建出来的索引网主要目标是给出整个互联网中的网页一个组织管理的方式,利用索引网可以根据用户需求提出一个或者多个服务流程,是对用户需求的深度挖掘,方便用户收集和使用网络信息。
本发明是通过以下技术方案实现的:
一种基于网页分类的索引网络构建方法,包括如下步骤:
1)从数据库中网页查询出网页所属的网页类和网页中所有的超链接,交由多个子线程进行处理。
2)在子线程中,通过分析超链接,建立网页类之间的业务流程,以此来构建索引网子网。
3)当处理完所有的网页后,将所有的索引网子网进行汇总,构成整个索引网。
具体的说,所述基于网页分类的索引网络构建方法,其特征在于:
在预处理时,构建一个以网页url为主关键字,以url和网页所属类即classID为键值对的哈希表htbyAddress。
第一步,从存储在数据库中的specific_Libraries表提取到本地的weblist数组,并且选出其中一个网页。
第二步,从提取出的网页即weblist数组中的一项中找出这个网页所属的网页类即classID,并且记录下来,再找出这个网页的所有外链接,存储在weblist的outLinkedWebsites属性上。将classID和outLinkedWebsites作为参数传递给子线程partWebBulid,同时传递一个参数mapID,用于决定子线程操作的索引网子网。
第三步,在partWebBuild子线程中解析outLinkedWebsites字符串,找出其中的每个url,利用这个url在哈希表htbyAddress中找出对应的网页所属的类classID2。此时,根据mapID确定操作哪个索引子网(map0~map3之间一个索引网子网)。然后,将传递到partWebBuild线程中的classID和链出网页所属的类classID2之间边的权值加1。partWebBuild继续处理outLinkedWebsites中其他的url。如果outLinkedWebsites中的所有url已经处理完,则结束这个线程。
第四步,等待所有partWebBuild子线程全部结束,统计所有索引网子网上边的权值,并将所有索引网子网的边权值累加到索引网TotalMap上。
第五步,将索引网TotalMap上每一个有向边按照属性startID,endID,weight,存入数据库的IndexNet表中,其中startID 表示有向边的起始网页类classID,endID表示有向边的终止网页类classID,weight表示这条有向边的权重,物理意义上表示两个网页类关联的紧密度。
所述索引网构建器,是网络信息服务系统中具体实现构建索引网方法的一个软件模块,能够将海量的网页利用分类和网页间的链接关系组织成索引网,它包括:
数据库部分,是唯一与外部进行交互的部分,由平台中的其他部分负责把网页数据写入数据库中;和
网页分类模块,则从数据库中提取出网页信息,并对网页进行分类,并将分类信息返回给数据库;和
构建索引网部分,则是基于网页分类模块,在分好类的网页的基础上,构建出一个索引网,并将索引网存入数据库中,供用户使用。至此,索引网构建器的工作结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210445658.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:跨安全区数据库备份方法
- 下一篇:无线视频点播教学系统