[发明专利]一种网络学习资源聚合查询的方法和系统在审
申请号: | 201710152062.8 | 申请日: | 2017-03-15 |
公开(公告)号: | CN106934036A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 唐四薪;林睦纲;唐琼 | 申请(专利权)人: | 衡阳师范学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 421002 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 学习 资源 聚合 查询 方法 系统 | ||
技术领域
本发明涉及计算机网络技术领域,具体涉及一种网络学习资源聚合查询的方法和系统。
背景技术
目前,Internet上的各种学习资源(如课件、教学视频、学习文档等)已经非常丰富,很多学习者都喜欢搜索网络学习资源进行自学,很多教师也喜欢搜索课件等学习资源进行备课。人们最常用的方法是使用通用搜索引擎(如百度)搜索这些学习资源。
但是,使用通用搜索引擎搜索学习资源一般只能搜索到一些零散的资源,而近年来我国的各大出版社都注重加强教材书籍的配套资源建设,许多出版社网站上已经积累了丰富的教材配套教学资源。这类教学资源一般由书籍作者提供,比较系统。另一方面,我国的很多慕课网站、精品课网站也积聚了大量的课程资源,但这些网站上海量的教学资源在百度等搜索引擎上却几乎搜索不到,因为搜索引擎的搜索爬虫无法将用户任意输入的关键词传递到目标网站的表单中获得搜索结果列表。
如果用户分别去访问每家出版社或课程网站,再逐个输入关键词搜索每个网站上的教学资源,那将是一件非常繁琐的事情。一种解决方案是:让每个搜索目标网站提供结构化数据(如JSON或XML数据)的接口,则可采用Ajax (Asynchronous Javascript And XML, 异步JavaScript和XML ) 或CURL( Command Line Uniform Resource Locator, 命令行统一资源定位器 ) 技术去获取目标网站的结构化数据,再将其聚合到结果网站中。
第二种方案是:利用出版社的搜索接口,进行统一查询,将查询得到的数据进行结构化处理之后存储到本地数据库中,再对本地数据库进行查询,这种方式的查询速度较快,但由于复制了出版社网站的内容到本地存储中,会引发版权纠纷问题。
总之,目前的网络学习资源聚合查询方案,至少存在下列一点或几点不足:① 需要目标网站提供结构化的数据和访问接口;② 需要将从目标网站中采集的内容结构化处理后存储到本地数据库中,由于复制了目标网站的内容到本地,将可能导致版权纠纷问题;③ 复制内容到本地数据库中查询,不能保证查询的是目标网站中的最新内容;④ 需要目标网站提供数据库结构或其他技术支持。
发明内容
为了克服需要目标网站提供技术支持,以及需要将采集的数据进行结构化处理的缺点,且不引起版权纠纷,满足个性化搜索的需要。提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的方法。
根据本发明,提供了一种网络学习资源聚合查询的方法,包括以下步骤:
第一步:将所有要查询的目标网站的网址、编码、HTTP请求方式等信息保存在数据库的一个表(设表名为sites,sites表中的字段有id, name, url, charset, pregmatch, valid, postdata, imgsrcp, asrcp, sort, descp)中,如果要新增查询的网站,只需将新网站的信息作为一条记录插入到sites表中。
第二步:本系统在网页上提供一个表单供用户输入搜索关键词。
第三步:获取所述搜索关键词,根据sites表中charset字段记录的目标网站的编码类型,将关键词进行URL编码,使关键词转换后的字符编码与所述目标网站的字符编码相同。
第四步:使用CURL多线程函数将编码后的关键词同时发送到各个目标网站的搜索处理页(sites表中的url字段保存了所述搜索处理页的网址),如果sites表中postdata字段值不为空,则以POST方式将关键词嵌入到postdata字段值中再发送给目标网站,如果postdata字段值为空,则以GET方式发送关键词数据给目标网站。
第五步:定义一个数组,接收各个所述目标网站返回的搜索结果页面的HTML代码。
第六步:对返回的所有所述HTML代码进行统一编码(如统一转换成utf-8编码)。
第七步:提取搜索结果列表区域:首先采用人工方法(如借助chrome浏览器的“检查”功能)找到搜索结果列表区域的起始代码,然后再根据首尾代码人工写出匹配整个区域的正则表达式代码,将其保存在sites表的pregmatch字段中,,最后使用正则表达式匹配函数(如preg_match)提取所述HTML代码中的搜索结果内容部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于衡阳师范学院,未经衡阳师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710152062.8/2.html,转载请声明来源钻瓜专利网。