[发明专利]一种基于ElasticSearch对MOOC课程进行分面检索的方法在审
申请号: | 201611074980.5 | 申请日: | 2016-11-29 |
公开(公告)号: | CN106776878A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 刘均;石磊;魏笔凡;王萌;姚思雨;曾宏伟;郭朝彤;王瑞杰 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/20 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 陆万寿 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 elasticsearch mooc 课程 进行 检索 方法 | ||
技术领域
本发明涉及一种对MOOC课程进行检索的方法,具体涉及一种基于ElasticSearch对MOOC课程进行分面检索的方法。
背景技术
MOOC中国作为至关重要的教育合作平台,将带领中国远程教育走向国际舞台。MOOC中国与丝路学院的结合,将成为互联网+教育的全新模式,以崭新的技术、资源、商业和服务理念和手段,实现网络教育的转型升级,实现中国的网络教育走向世界。
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。ElasticSearch是用Java开发的,其设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。
现有国内外MOOC平台中,课程检索主要包括三个步骤:(1)对课程名称的索引;(2)用户在MOOC网站对课程名称进行检索;(3)MOOC检索系统直接返回数据。
上述方法中的索引内容不够全面,检索方式单一,检索结果输出不够智能。因此,这种大众化的检索方式并不能满足用户更全面的需求。
发明内容
为了解决现有技术中的问题,本发明提出一种基于ElasticSearch对MOOC课程进行分面检索的方法,将繁杂、无序的课程资源整合成一个可个性化高效搜索的形式,缓解用户搜索所需课程信息慢的弊端,提高用户获得有效信息的精准度,使用户能够检索更全面的内容,更快检索到想要的课程。
为了实现以上目的,本发明所采用的技术方案为:包括以下步骤:
1)元数据的获取:首先从MOOC资源服务平台获取MOOC课程元数据,然后解析数据并将MOOC课程元数据存储在本地资源数据库中;
2)索引构建:首先在ElasticSearch中创建一个索引,然后通过ElasticSearch的批量导入机制,将本地资源数据库中的MOOC课程元数据在ElasticSearch集群中建立索引;
3)多字段检索和字段权重设置:首先根据MOOC课程资源的特点分析出若干个字段的数据并加入到待检索字段中,然后利用ElasticSearch的Bool查询嵌套,实现多字段检索;最后对不同字段通过设置不同的权重,排除检索结果中的干扰信息;
4)分面检索和查询结果排序:首先设置若干个分面,利用ElasticSearch的聚合查询从不同分面对MOOC课程进行筛选和过滤,允许用户创建自己的检索路径,实现分面检索;然后设置排序,在MOOC课程检索结果的基础上按照一个特定分面进行排序,使具有预期属性的MOOC课程尽可能靠前,完成检索结果排序;
5)设置检索服务接口,提供MOOC课程检索服务,检索服务接口要求用户提供检索关键词和检索分面信息,用户提供检索关键词和检索分面信息后,检索服务接口向用户返回MOOC课程信息列表以及课程分面聚合结果。
所述步骤1)中元数据的获取具体包括以下步骤:
1.1)通过基于HTTP协议的GET请求规范从MOOC中国资源服务平台获取课程列表;
1.2)将所有课程的CourseID放入队列中进行循环遍历,根据CourseID这个字段通过基于HTTP协议的GET请求规范从MOOC中国资源服务平台获取每一课程的JSON文件;
1.3)利用JsonPath解析语法,对JSON文件进行解析,获取MOOC课程元数据;
1.4)将MOOC课程元数据存入本地的MySQL资源数据库中。
所述步骤2)中索引构建具体包括:首先构建ElasticSearch的Mapping描述文件,指明每一个字段如何索引数据以及是否被检索到,并使用一个默认的分析器Analyzer;然后将Mapping文件写入ElasticSearch集群中,创建一个索引Indexmooc;最后从本地MySQL资源数据库中获取MOOC课程元数据,利用ElasticSearch的Bulk批量导入索引Indexmooc中。
所述步骤3)中多字段检索和字段权重设置具体包括以下步骤:
3.1)根据MOOC课程资源的特点分析出七个字段的数据,七个字段包括课程名称CourseName、课程简介Introduction、课程机构名称OrgName、章节列表Chapterlist、教师团队TeacherInfo、先修知识Priorknowledge和授课语言Language;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611074980.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:摩托车零件型号自动识别方法
- 下一篇:一种客户缴费服务信息推送方法