[发明专利]一种慕课的关键词提取方法有效
申请号: | 201810177736.4 | 申请日: | 2018-03-02 |
公开(公告)号: | CN108549626B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 马震远;黄丽霞;张露娟;戴玉珠;林智勇;刘少鹏 | 申请(专利权)人: | 广东技术师范学院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 510665 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 提取 方法 | ||
本发明公开了一种慕课的关键词提取方法,该方法包括:先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。采用本发明实施例,能提高关键词提取的精确性,满足慕课个性化学习的需求。
技术领域
本发明涉及计算机技术领域,尤其涉及一种慕课的关键词提取方法。
背景技术
随着移动互联网的发展,在线学习(E-learning)作为一种新兴的教学模式在世界范围内得到了迅猛的发展。“慕课”英文全称是Massive Open Online Course(大规模在线开放课程),简称MOOC。实际上是在线教育的新发展,是一种新型的在线开放教育形式,其实质是低成本、精品化、生成式、可广泛共享的在线微课程。与传统在线教育相比,它的一个显著特点是更加关注学生的“学”,学生在很大程度上可以通过MOOC实现自主个性化学习。
现有的慕课主要采用“讲授型”教学方式,主要以视频形式讲授教学内容,辅之以测验、课后练习专题研讨,占课程资源比重达99.01%。由此可见,对慕课视频进行自动关键词提取,以及在海量的慕课资源中快速准确地查找所需资源具有深远的意义与研究价值。现有技术对于关键词自动提取的研究集中在无监督方法方面,即不需要标注训练语料集,主流方法有基于词频统计的TF-IDF模型、基于主题模型和基于词图模型的关键词抽取等。
而基于词图模型关键词抽取的方法,不需要事先对文档集进行学习训练,仅利用单篇文档本身的信息即可进行关键词抽取,简单而有效,应用广泛,以TextRank算法为典型代表。但是现有的TextRank算法在关键词抽取时,仅利用单一文档进行关键词抽取且节点均匀加权的无权边图,而慕课语音文本具有独特的领域特征,除了要求抽取的关键词具有较高的准确率,还应该有较高的领域相关度,即该领域的核心术语。因此,亟需一种从词语性和领域性两个角度出发的关键词抽取方法。
发明内容
本发明实施例提出一种慕课的关键词提取方法,考虑了慕课语音文本的词语性和领域性,提高关键词提取的精确性,满足慕课个性化学习的需求。
本发明实施例提供慕课的关键词提取方法,包括:
获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;
对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;
根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;
根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;
根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2;
计算各词语在预设文档集中的平均信息熵,过滤掉所述X个关键词中平均信息熵大于预设阈值的关键词,并输出剩下的关键词。
进一步的,所述预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范学院,未经广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810177736.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于句法宾语聚类的中文篇章表现主题分析方法
- 下一篇:汉字处理方法及装置