[发明专利]通用型垂直搜索引擎的行业应用模型建模方法在审
申请号: | 201010564470.2 | 申请日: | 2010-11-30 |
公开(公告)号: | CN102012922A | 公开(公告)日: | 2011-04-13 |
发明(设计)人: | 刘学明;钱宇;张康 | 申请(专利权)人: | 无锡快度信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214043 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通用型 垂直 搜索引擎 行业 应用 模型 建模 方法 | ||
一.技术领域
本发明公开一种基于通用型垂直搜索引擎的行业应用模型建模方法。
二.背景技术
诸多文献都将垂直搜索定义为面向某单一应用或某单一功能的搜索技术。现实中的垂直搜索产品和门户网站正是按照此定义布局,或房产信息搜索门户、或博客信息搜索门户、或音乐信息搜索门户、或专利信息搜索门户,凡此种种,莫不如是。产生如此现象,皆因垂直搜索的互联网信息明显的行业应用特性、功能应用特性和结构特性使然。亦即是说,由于垂直搜索所面对的互联网信息具有明显的行业应用特征、功能应用特征和结构特征,这些千差万别的信息特征导致垂直搜索门户具有明显的单一的行业性或功能性。
其实,垂直搜索引擎的核心模块-数据爬行模块spider本身可作为通用的技术,并无严格的行业应用或功能应用的界限。一个好的数据爬行软件原则上是可以针对任何网页、任何行业信息完成数据抓取任务的。由此看来,导致垂直搜索技术仅被应用于某个单一的行业或功能门户的现状,其根源并不在于数据爬行软件spider这一垂直搜索的核心技术本身,而是来自于该核心技术以外的因素。因此,要像google、百度那样构建一个通用的垂直搜索平台,数据爬行软件spider这一垂直搜索的核心技术本身是具备此基础的。问题在于如何围绕具备通用能力的数据爬行软件构建起具有通用能力的外围体系,才是实现通用型垂直搜索引擎的关键。构建起与通用型数据爬行软件spider相匹配,并且具备通用能力的行业应用模型,就是该体系研究的重要课题之一。
三.发明内容
本发明的目的在于提供一种通用型垂直搜索引擎的行业应用模型建模方法,该方法用于通用的垂直搜索体系中,描述不同行业应用或功能应用特征,以实现垂直搜索按照其行业模型完成互联网信息的识别、抓取、组织、存储和传输应用,使之具备通用型垂直搜索引擎的能力。
本发明的技术方案是:
本发明通用型垂直搜索引擎的行业应用模型建模方法,垂直搜索核心模块Spider 1访问行业应用模型2实现不同行业信息的识别、抓取、组织、存储和传输应用,行业应用模型2由Internet网页库21和网页存储分类索引管理组件211、网页结构信息模型库22和网页结构信息模型管理组件221、行业信息结构模型库23和行业信息结构模型管理组件231、行业信息存储模型库24和行业信息存储模型管理组件241、以及用户系统接口模型库25和用户系统接口模型管理组件251构成。其中:
Internet网页库21和网页存储分类索引管理组件211承担Internet网页库21存储、分类和索引管理任务,其中网页存储分类索引管理组件211调用Google API 212实现行业应用网页URL集合的搜索;
网页结构信息模型库22和网页结构信息模型管理组件221承担网页结构的分析、描述、页面访问控制、页面转换链接控制、以及页面和行业应用关系的描述和管理任务;
行业信息结构模型库23和行业信息结构模型管理组件231,承担各种不同的行业信息在各个网页中不同的结构形态和网页位置的描述、提取、生成和管理任务;
行业信息存储模型库24和行业信息存储模型管理组件241,承担各种不同的行业信息从各网页抓取后在系统中的存储形态和存储结构的描述、存储结构的动态生成和管理任务;
用户系统接口模型库25和用户系统接口模型管理组件251,承担与各用户专用系统之间的信息存储形态及存储结构的转换关系、信息传输接口、以及软件接口关系形态、接口定义及调用的描述、生成和管理任务。
所述网页结构信息模型库22至少包含所在行业和应用、行业信息归类描述、网页地址URL、网页访问入口参数(username、password、方法代码等)、网页链接方法、网页链接控制参数等信息。
所述网页结构信息模型管理组件221至少包含网页结构信息模型库22基本信息生成和维护、网页访问入口参数(username、password、方法代码等)库信息生成和维护、网页链接方法及网页链接控制参数库信息生成和维护,网页链接控制代码片段的提取/转换/存储和调用处理等功能处理模块。
所述行业信息结构模型库23至少包含所在行业和应用、行业信息归类描述、网页地址URL、行业信息结构类型、行业信息结构起始标识、行业信息结构描述、行业信息结构中元数据属性描述、行业信息结构循环抓取标识、行业信息结构抓取结束标识、行业信息结构存储指示等信息。
所述行业信息结构模型管理组件231至少包含行业信息结构模型库23基本信息生成和维护、行业信息结构模型库23信息辅助分析和自动提取等功能处理模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡快度信息技术有限公司,未经无锡快度信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010564470.2/2.html,转载请声明来源钻瓜专利网。