[发明专利]搜索网页的方法和建立数据库的方法无效
申请号: | 201010189350.9 | 申请日: | 2010-06-02 |
公开(公告)号: | CN101847161A | 公开(公告)日: | 2010-09-29 |
发明(设计)人: | 唐堂正明 | 申请(专利权)人: | 苏州搜图网络技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215011 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 网页 方法 建立 数据库 | ||
技术领域
本发明属于搜索引擎领域,特别是涉及利用基于内容的多媒体搜索技术和基于关键词的文本搜索技术以及它们的组合技术进行搜索网页的方法和建立数据库的方法及其在商品搜索中的应用。
背景技术
单纯基于文本使用关键词从互联网中搜索网页信息、图片、视频、音乐等的著名搜索引擎有百度、谷歌、必应和雅虎等。但是它们的索引数据库通常只包括网页地址(URL)、编码类型、关键词、关键词位置、生成时间、大小和与其他网页的链接关系等。而且搜索条件一般也只限于关键词。
发明内容
本发明所要解决的技术问题是更深层次的信息搜索。本发明为了解决上述技术问题所采用的技术方案之一是:建立包含网页基本信息、图片、视频、音声等信息的多维信息索引数据库。其中网页基本信息包括网页地址(URL)、编码类型、关键词、关键词位置、生成时间、大小和与其他网页的链接关系等。图片、视频、音声等信息则包括从网页中的图片、视频、音声等信息中提取的特征值,譬如图像的颜色、形状、纹理、空间关系等特征值、以及生成时间、大小、标注、格式等。搜索时,以计算机、手机等输入设备取得一个或多个搜索条件,系统根据需要进行特征值抽取等处理后由搜索系统程序从上述多维信息索引数据库中找到相关数据,实现第一轮对多维索引数据库的搜索。之后系统从上述搜索结果中指定一个或多个,譬如从匹配度最高的一个多维数据中选择一个或多个其他信息作为新的搜索条件进行下一轮搜索。重复此过程直至搜索完成后由页面生成系统将搜索结果的链接地址和页面内容摘要、图片等内容组织起来按一定排列顺序返回给用户。
本发明为了解决上述技术问题所采用的技术方案之二是:对上述多维信息索引数据库按以下方法重新组织,建立新的索引数据库,以增加搜索范围和提高搜索速度。首先在索引数据库中的任意一个索引行数据中选择一个或多个索引数据以外的列数据作为搜索条件在上述多维信息索引数据库中搜索具有相同或相似列的行数据,并将其归为同类或相似类建立索引数据库,然后依次在这些行数据中选择另一个或多个其他数据作为新的搜索条件,重复以上过程直至新的索引数据库建成。这样对具有上述索引数据库结构的网页索引数据库进行搜索时,搜索条件符合同类或相似列数据中任意一条或多条都可以视为符合此搜索条件,页面生成系统将搜索结果的链接地址和页面内容摘要、图片等内容组织起来按一定排列顺序返回给用户。
具体实施方式
下面首先从搜索过程来阐述本发明的技术方案的具体实施方式,然后以商品搜索为实施例对本发明进一步说明。
本发明的网页搜索的步骤主要包括:
(1)从互联网抓取网页。利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有网页地址(URL)爬到其他网页,重复此过程,并把爬过的所有网页收集到服务器中。
(2)建立索引数据库。由索引系统程序对收集回来的网页进行分析,提取相关网页基本信息(包括网页地址(URL)、编码类型、关键词、关键词位置、生成时间、大小和与其他网页的链接关系等)。同时对网页里可能存在的图片、视频、音声等信息进行特征值抽取处理,提取相关的特征值信息(譬如图片的颜色、形状、纹理、空间关系等),以及生成时间、大小、标注、格式等。根据一定的相关度算法进行计算,得到每一个网页针对页面内容中及超链中每一个关键词、特征值的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
(3)在索引数据库中搜索。当用户输入搜索条件,譬如:关键词、图片、视频、音声等信息或它们的特征值请求搜索后,如果是图片、视频、音声等信息则进行特征值抽取后,分解搜索请求,由搜索系统从网页索引数据库中找到符合该搜索条件的所有相关网页。
(4)对搜索结果进行排序。所有相关网页针对该搜索条件的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排序越靠前。
(5)根据搜索结果请求二次搜索。对(4)的搜索结果进行分析,如果需要,对排名最前或排名前几位的网页的索引数据中其他一个或多个列数据作为新的搜索条件返回(3)请求新的一轮搜索。当然新的搜索条件可以是事先指定的也可以提示给用户由用户选择。
如果不需要则进入(6)。
(6)组织结果返回给用户。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
本发明的基于索引数据库分类的搜索方法的步骤主要包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州搜图网络技术有限公司,未经苏州搜图网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010189350.9/2.html,转载请声明来源钻瓜专利网。