[发明专利]基于关键字分类并有多种呈现方式的搜索引擎装置与方法有效

专利信息
申请号: 201310229058.9 申请日: 2013-06-08
公开(公告)号: CN103294815B 公开(公告)日: 2017-06-06
发明(设计)人: 林荣恒;赵耀;邹华;吕文博;杨放春 申请(专利权)人: 北京邮电大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京德琦知识产权代理有限公司11018 代理人: 夏宪富
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 关键字 分类 多种 呈现 方式 搜索引擎 装置 方法
【说明书】:

技术领域

本发明涉及一种信息检索系统,确切的说,涉及一种基于关键字分类进行搜索、并使搜索结果具有多样化呈现方式的搜索引擎装置与方法,属于互联网服务的技术领域。

背景技术

搜索引擎(search engine)的百科定义是:万维网环境中包括目录服务和关键字检索两种服务方式的信息检索系统或装置,它是一种根据设定的策略、运用特定的计算机程序从互联网上搜集信息,再对信息进行组织和处理后,为用户提供检索服务,将用户需要检索的相关信息展示给用户的系统或装置。通常,将用户输入的待搜索的字符串定义为关键字。百度、搜狗和谷歌等都是目前比较常用的独立搜索引擎的代表。

随着信息技术和网络技术的快速发展,搜索引擎已经成为人们通过网络获取信息的有效途径和手段。搜索引擎可以帮助用户从复杂、多样的海量互联网数据信息中,高效快速地查找出用户所需的有效信息和数据,用户可在搜索引擎中输入待搜索的关键字,搜索引擎将为用户返回一个根据与该关键字具有相关性排序的搜索结果列表。

搜索引擎的工作原理主要分为以下四个步骤:

(1)爬行和抓取:搜索引擎派出一个能够在网页上发现新网页并抓取文件的“爬虫”程序,由该“爬虫”程序从已知的网页数据库出发,依次浏览这些网页并抓取文件。同时,搜索引擎会跟踪网页中的链接,以访问更多的网页。而且,这些新的网页都会被存入数据库等待抓取。

(2)建立索引:对在第一步中爬取的网页文件进行分解和分析,并将分析结果存入数据库中。由于数据量非常庞大,所以必须建立索引,以加快查询数据库的速度。

(3)关键字预处理:搜索引擎系统对关键字进行预处理,如中文特有的分词处理、去除停止词等。

(4)排序:从索引数据库中查找出所有包含关键字的网页,并根据排名算法按照排名顺序返回给用户显示。

美国专利申请《搜索结果呈现》(“Presentation of search results”,申请号:US2012174011A1)公开的技术是:各个实施例都是在一个交互式显示装置上显示的搜索请求。例如,一个公开的实施例提供一种方法,其中包括:通过一个显示在交互式显示装置上的搜索请求控制器接收输入的搜索请求,再由该搜索请求控制器生成一个搜索结果标签,该搜索结果标签是一个可移动的元素,并且,所有的搜索结果都排列在该搜索结果标签周围,并可以随搜索结果标签的移动而移动。

目前,搜索引擎为用户所呈现的搜索结果主要存在两方面的问题:

(1)搜索结果的呈现形式:搜索引擎通常是以列表或图片链接的形式返回针对用户输入的关键字的搜索结果,用户通常只能逐条点击链接、即采用依次浏览搜索结果的标题和摘要,才能找到和确定其感兴趣的信息,或者所需要的搜索内容。这样的搜索过程效率低下,用户无法直观地获得想要的搜索结果。

(2)关键字的语义歧义性:语义歧义性是指输入的关键字的语义可以有多种理解方式,由于语义的歧义性或用户无法准确表达自己的需求,使得现有的搜索引擎不能够区分关键字的不同歧义,有可能造成搜索结果中包含用户实际并不感兴趣的信息,这样,就需要用户自己筛选定位,更进一步增加了用户筛选有效信息的工作量,从而增加了搜索时间,降低了搜索效率。

因此,如何对其进行改进就成为业内科技人员关注的新课题。

下面简要介绍本发明所涉及到的数据挖掘领域技术包括:

(1)分类:分类被视为从一个数据集到一组预先定义的、非交叠的类别的映射过程。其中,映射关系的生成和映射关系的应用是数据挖掘分类方法的主要研究内容。该映射关系是分类函数或分类模型,映射关系的应用是使用分类模型将未分类的数据划分到设定类别中的某一类别的过程。分类包括两个步骤:

a)建立模型,描述预订的数据类型集和概念集:通过分析由属性描述的数据集元组构造模型,用于建模而被分析的数据元组的集合形成了训练集。为保证构建的模型与原始数据的分布匹配,选取训练集的过程需要尽量随机。

b)分类模型的应用:在应用之前,首先要评估模型的预测准确率,在达到可接受范围后,才可以用来对未分类的数据元组进行分类。

(2)聚类:聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。聚类的目的是使得属于同群组的对象之间的差别尽可能的小,进而划分出不同群组。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310229058.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top