[发明专利]一种网络学习资源聚合查询的方法和系统在审
申请号: | 201710152062.8 | 申请日: | 2017-03-15 |
公开(公告)号: | CN106934036A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 唐四薪;林睦纲;唐琼 | 申请(专利权)人: | 衡阳师范学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 421002 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种网络学习资源聚合查询的方法和系统,目的是克服需要目标网站提供技术支持,以及需要将采集的数据进行结构化处理的缺点,且不引起版权纠纷,满足个性化搜索的需要。技术方案是采用CURL多线程函数同时向若干个目标网站发送查询请求和查询关键字,使用正则表达式提取所述目标网站返回代码中的搜索结果列表区域,再对所述返回代码中的URL进行修正,最后将这些所述返回代码载入到本系统的搜索结果页中。本发明的优点在于不需要将从目标网站获取的非结构化数据转换为结构化数据;不需要在本系统的服务器端存储从目标网站获取得到的数据,从而不会产生版权纠纷;不需要目标网站提供任何技术支持,满足个性化搜索需要,简单实用。 | ||
搜索关键词: | 一种 网络 学习 资源 聚合 查询 方法 系统 | ||
【主权项】:
一种网络学习资源聚合查询的方法和系统,其特征在于包括以下步骤:第一步:将所有要查询的目标网站的网址、编码、HTTP请求方式等信息保存在数据库的一个表(设表名为sites,sites表中的字段有id, name, url, charset, pregmatch, valid, postdata, imgsrcp, asrcp, sort, descp)中,如果要新增查询的网站,只需将新网站的信息作为一条记录插入到sites表中;第二步:本系统在网页上提供一个表单供用户输入搜索关键词;第三步:获取所述搜索关键词,根据sites表中charset字段记录的目标网站的编码类型,将关键词进行URL编码,使关键词转换后的字符编码与所述目标网站的字符编码相同;第四步:使用CURL多线程函数将编码后的关键词同时发送到各个目标网站的搜索处理页(sites表中的url字段保存了所述搜索处理页的网址),如果sites表中postdata字段值不为空,则以POST方式将关键词嵌入到postdata字段值中再发送给目标网站,如果postdata字段值为空,则以GET方式发送关键词数据给目标网站;第五步:定义一个数组,接收各个所述目标网站返回的搜索结果页面的HTML代码;第六步:对返回的所有所述HTML代码进行统一编码;第七步:提取搜索结果列表区域:首先采用人工方法找到搜索结果列表区域的起始代码,然后再根据首尾代码人工写出匹配整个区域的正则表达式代码,将其保存在sites表的pregmatch字段中,最后使用正则表达式匹配函数(如preg_match)提取所述HTML代码中的搜索结果内容部分;第八步:修正所述HTML代码中图像和超链接中的相对URL地址:首先使用DOM(Document Object Model,文档对象模型)操作类(例如simple html dom)找到返回所述HTML代码中的所有a元素和img元素,然后在其src属性值前添加原网站的域名和路径前缀字符串(sites表中的asrc字段和imgsrcp字段保存了所述前缀字符串);第九步:在本系统中载入修正后的搜索结果列表区域代码,分别将每段修正后的代码载入到一个HTML容器元素中;第十步:为搜索结果列表添加样式代码,对所有所述HTML容器元素进行样式布局和美化并输出到本系统的搜索结果页中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于衡阳师范学院,未经衡阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710152062.8/,转载请声明来源钻瓜专利网。