[发明专利]一种网络学习资源聚合查询的方法和系统在审
申请号: | 201710152062.8 | 申请日: | 2017-03-15 |
公开(公告)号: | CN106934036A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 唐四薪;林睦纲;唐琼 | 申请(专利权)人: | 衡阳师范学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 421002 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 学习 资源 聚合 查询 方法 系统 | ||
1.一种网络学习资源聚合查询的方法和系统,其特征在于包括以下步骤:第一步:将所有要查询的目标网站的网址、编码、HTTP请求方式等信息保存在数据库的一个表(设表名为sites,sites表中的字段有id, name, url, charset, pregmatch, valid, postdata, imgsrcp, asrcp, sort, descp)中,如果要新增查询的网站,只需将新网站的信息作为一条记录插入到sites表中;第二步:本系统在网页上提供一个表单供用户输入搜索关键词;第三步:获取所述搜索关键词,根据sites表中charset字段记录的目标网站的编码类型,将关键词进行URL编码,使关键词转换后的字符编码与所述目标网站的字符编码相同;第四步:使用CURL多线程函数将编码后的关键词同时发送到各个目标网站的搜索处理页(sites表中的url字段保存了所述搜索处理页的网址),如果sites表中postdata字段值不为空,则以POST方式将关键词嵌入到postdata字段值中再发送给目标网站,如果postdata字段值为空,则以GET方式发送关键词数据给目标网站;第五步:定义一个数组,接收各个所述目标网站返回的搜索结果页面的HTML代码;第六步:对返回的所有所述HTML代码进行统一编码;第七步:提取搜索结果列表区域:首先采用人工方法找到搜索结果列表区域的起始代码,然后再根据首尾代码人工写出匹配整个区域的正则表达式代码,将其保存在sites表的pregmatch字段中,最后使用正则表达式匹配函数(如preg_match)提取所述HTML代码中的搜索结果内容部分;第八步:修正所述HTML代码中图像和超链接中的相对URL地址:首先使用DOM(Document Object Model,文档对象模型)操作类(例如simple html dom)找到返回所述HTML代码中的所有a元素和img元素,然后在其src属性值前添加原网站的域名和路径前缀字符串(sites表中的asrc字段和imgsrcp字段保存了所述前缀字符串);第九步:在本系统中载入修正后的搜索结果列表区域代码,分别将每段修正后的代码载入到一个HTML容器元素中;第十步:为搜索结果列表添加样式代码,对所有所述HTML容器元素进行样式布局和美化并输出到本系统的搜索结果页中。
2.如权利要求1所述的一种网络学习资源聚合查询的方法,其特征在于使用CURL多线程函数发送请求时是同时发送给所有目标网站,而不是一个一个地发送。
3.如权利要求1所述的一种网络学习资源聚合查询的方法,其特征在于能根据postdata字段值,自动选择发送HTTP请求的方式是post还是get。
4.如权利要求1所述的一种网络学习资源聚合查询的方法,其特征在于如果以post方式发送请求,则能够将所述搜索关键词字符串嵌入到postdata字段保存的字符串中发送。
5.如权利要求1所述的一种网络学习资源聚合查询的方法,其特征在于使用正则表达式匹配所述目标网站的搜索结果列表区域。
6.如权利要求1所述的一种网络学习资源聚合查询的方法,其特征在于使用DOM操作类修正代码中超链接和图像文件的URL地址。
7.如权利要求1所述的一种网络学习资源聚合查询的方法,其特征在于本系统不存储任何目标网站的搜索结果的HTML代码,而是利用CSS样式代码进行美化和布局后,将其直接输出到本系统的搜索结果页显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于衡阳师范学院,未经衡阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710152062.8/1.html,转载请声明来源钻瓜专利网。