[发明专利]一种基于改进词移距离算法的文档自动评阅方法有效
申请号: | 202010441411.X | 申请日: | 2020-05-22 |
公开(公告)号: | CN111694927B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 陆鑫;程琳琳 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 距离 算法 文档 自动 评阅 方法 | ||
本发明公开了一种基于改进词移距离算法的文档自动评阅方法,该方法通过计算被评阅文档与参考答案文档之间的相似度来实现文档自动评阅,所采用的KWMD算法不需要大量训练评测样本即可达到不错的评分效果;通过改进的Rake算法抽取最能代表文档语义的若干关键词,KWMD算法将改进的Rake算法计算出的词语得分作为权重来实现最小词移距离的计算,从而计算文档比对的相似度。基于参考答案文档与被评阅文档的相似度计算得到评阅文档的得分,实现文档自动评阅。该方法可有效提升文档自动评阅的准确度,同时通过提取的若干关键词使得需要计算词移距离的词语大量减少,计算时间得到了降低,从而也可提高文档评阅效率。
技术领域
本发明涉及计算机人工智能的自然语言处理领域,具体涉及一种基于改进词移距离算法的文档自动评阅方法。
背景技术
“互联网+教育”是当前教育改革与实践中的热点话题。随着以人工智能为代表的新技术的不断发展,一种更加高效、智能的教育新形式将会逐渐形成。人工智能在教育领域的应用主要有以下几个方面:一是使学习更加个性化,二是改变教与学之间的关系,三是辅助教师的教学工作。本发明着眼于第三点,通过实现学生答卷文档的自动评阅,将教师从繁重机械的工作中解放出来,减轻教师的负担,提高教师的工作效率和工作质量。
为实现答卷文档的自动评阅,不仅仅只是将被评阅的答卷文档与参考答案文档进行简单的匹配,重点在于对答卷文档进行语义分析以及相似度的计算,这些都属于人工智能的自然语言处理领域。
自然语言处理的目标是让计算机理解人类的语言,为了达到这个目标,自然语言处理被分为两大核心任务:自然语言理解和自然语言生成。在此基础上,自然语言处理又细分了很多任务:词性标注、命名实体识别、信息抽取、文本分类、信息检索、机器翻译、文本生成、语义文本相似性等等。本发明实现的答卷文档自动评阅方法主要属于自然语言处理的语义文本相似性任务,通过对文档进行语义分析实现。
语义分析是人工智能的一个分支,语义分析指通过各种方法学习和理解一篇文章所代表的语义内容。任何对语言的理解都可以被归类为语义分析。文章通常由词、句子和段落组成。使用不同的语言单位来划分,语义分析又可分为词汇级语义分析、句子级语义分析和篇章级语义分析。本发明主要涉及词汇级语义分析。
为实现词汇级的语义分析,首先需要对文档进行分词。分词就是将一篇文档或一个句子分成一个一个的词语。英文分词由于基本组成单位就是词,所以根据空格就能很简单的划分。而中文是以字为基本的书写单位,词语之间没有明显的区分标记,所以中文分词要困难得多。中文分词算法主要分为两类:基于词典的分词算法和基于统计的机器学习算法。常用的中文分词算法有:正向最大匹配法、逆向最大匹配法、双向匹配分词法、隐马尔可夫模型、条件随机场算法等。目前市面上已有很多成熟的中文分词工具,如结巴分词工具、哈工大的LTP分词器、清华大学THULAC、斯坦福分词器、Hanlp分词等。
分好词后,需要通过分好的词进行文档相似度的计算。常见的文档相似度模型主要分为基于字面匹配的模型和基于语义匹配的模型,如TF-IDF、BM25、simhash、LSA等。本发明通过一种改进的词移距离算法KWMD实现文档相似度的计算。
词移距离算法(WMD,Word Mover's Distance)是一种基于词移动距离的文档相似度计算的经典算法。其算法思想是利用词嵌入语义向量(word2Vec)技术,通过计算一篇文档中的所有词语完全转移到另一篇文档中所需要的最小转移距离,也就是词移距离来衡量两篇文档间的差异性。因此,两篇文档间的相似度计算步骤如下:首先需要计算出两篇文档所有词语两两间的转移距离,然后构建线性规划问题计算出其中一篇文档中所有词转移到另一篇文档中词的最小总距离,该最小总距离就可以用来衡量两篇文档的相似度,距离越小,则代表两篇文档越相似。
发明内容
针对主观题答卷文档难以用机器快速评阅的问题,本发明通过改进的词移距离算法和改进的关键词提取算法,实现具有参考答案的主观题答卷文档自动评阅。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010441411.X/2.html,转载请声明来源钻瓜专利网。