[发明专利]一种网页信息搜索方法及装置在审
申请号: | 201811351819.7 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109299353A | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 何中;刘剑波;严伟;戴建峰;陈明敏;姚童;何登;王斌 | 申请(专利权)人: | 江苏中威科技软件系统有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 徐思波 |
地址: | 226000 江苏省南通*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 网页信息搜索 目标网页 搜索请求 搜索 处理负荷 符合条件 快速查询 网页信息 网站信息 预先建立 智能分词 词条 匹配 服务器 网页 查找 携带 返回 | ||
本发明公开了一种网页信息搜索方法及装置,所述方法包括:接收搜索请求,所述搜索请求中携带搜索词;在预先建立的网页词条与网页信息的对应关系中查找所述搜索词对应的目标网页信息;返回所述目标网页信息。本发明基于对网站信息的智能分词、使用户能够快速查询到符合条件的结果,缩短了搜索时间,搜索时间为秒级,而且无需搜索词的完全匹配即可得到精确的结果,降低了服务器的处理负荷。
技术领域
本发明涉及计算机技术领域,特别涉及一种网页信息搜索方法及装置。
背景技术
随着计算机网络技术的发展,人们越来越多的从网络上搜索自己需要的信息。搜索引擎根据用户输入的搜索词进行搜索,并向用户返回与搜索词匹配的网页信息。
然而,目前网页数据往往都是基于关系型数据库,对网页的信息搜索无法实现快速搜索,且搜索关键词必须完全匹配才能得到结果,增加了服务器的负荷。
因此,需要提供更加可靠或者有效的方法,以缩短搜索时间,降低搜索过程中服务器的负荷。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种网页信息搜索方法及装置。所述技术方案如下:一方面,提供了一种网页信息搜索方法,所述方法包括:接收搜索请求,所述搜索请求中携带搜索词;在预先建立的网页词条与网页信息的对应关系中查找所述搜索词对应的目标网页信息;返回所述目标网页信息。
进一步地,所述方法还包括建立所述网页词条与网页信息的对应关系的步骤,包括:使用爬虫工具爬取网页信息;对所爬取到的网页信息进行切割分词处理,得到网页词条;建立所述网页词条与所述网页信息的对应关系。
进一步地,所述对所爬取到的网页信息进行切割分词处理,得到网页词条包括:
对所爬取到的网页信息进行预处理,得到第一网页信息;对所述第一网页信息进行切割分词处理,得到分词集合;确定所述分词集合中各分词与所述网页信息的相关度;根据所述各分词与所述网页信息的相关度,确定网页词条。
进一步地,所述确定所述分词集合中各分词与所述网页信息的相关度包括:
根据所述分词集合中各分词词性,确定第一权重值;计算所述分词集合中各分词的重现率;
根据所述第一权重值和重现率,确定所述分词与所述网页信息的相关度。
进一步地,所述在预先建立的网页分词与网页信息的对应关系中查找所述搜索词对应的目标网页信息包括:根据所述搜索词,获取搜索关键词;
判断所述搜索关键词是否与所述对应关系中的网页分词相匹配;
在判断的结果为是,获取所述网页分词与网页信息的对应关系;
根据所述网页分词与网页信息的对应关系,获取所述目标网页信息。
另一方面,提供了一种网页信息搜索装置,所述装置包括:
接收模块,用于接收搜索请求,所述搜索请求中携带搜索词;
查找模块,用于在预先建立的网页词条与网页信息的对应关系中查找所述搜索词对应的目标网页信息;
返回模块,用于返回所述目标网页信息。
进一步地,所述装置还包括对应关系建立模块,所述对应关系建立模块用于建立所述网页词条与网页信息的对应关系,包括:
爬取模块,用于使用爬虫工具爬取网页信息;
切割分词模块,用于对所爬取到的网页信息进行切割分词处理,得到网页词条;
建立模块,用于建立所述网页词条与所述网页信息的对应关系。
进一步地,所述切割分词模块包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏中威科技软件系统有限公司,未经江苏中威科技软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811351819.7/2.html,转载请声明来源钻瓜专利网。