[发明专利]基于NLP的智能阅卷方法、装置、设备及存储介质有效
申请号: | 201910522451.4 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110363194B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 夏新 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V10/70;G06F40/289;G06F40/30 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 nlp 智能 阅卷 方法 装置 设备 存储 介质 | ||
1.一种基于NLP的智能阅卷方法,其特征在于,所述基于NLP的智能阅卷方法包括:
获取待评分的试题图像;
采用光学字符识别的方式,对所述试题图像进行图像识别,得到识别内容;
按照预设的语句划分方式,对所述识别内容进行语句切分,得到所述识别内容中包含的每个基础语句;
获取根据所述试题图像对应的领域的语料库训练的N-Gram模型,并通过所述N-Gram模型,对每个所述基础语句进行内容纠正,得到每个所述基础语句对应的目标文本;
通过预设的分词方式,对所述目标文本进行分词处理,得到所述目标文本中包含的基础分词;
将所述基础分词转换为词向量,并通过聚类算法,对所述词向量进行聚类,得到所述目标文本对应的聚类中心;
针对N个预设词义向量,分别计算所述预设词义向量与所述目标文本对应的聚类中心之间的欧式距离,并将最小欧式距离作为所述预设词义向量的目标距离,得到N个所述目标距离,其中,N个所述预设词义向量为预设标准答案经过分词后转化的词向量,N为正整数;
获取预设的K个距离阈值范围和每个所述阈值范围对应的基础评分,其中,K为正整数;
针对N个所述目标距离,判断每个所述目标距离所属的距离阈值范围,并根据K个所述阈值范围对应的基础评分,确定每个所述目标距离对应的基础评分;
对N个所述目标距离对应的基础评分进行加权计算,得到所述试题图像对应的综合评分。
2.如权利要求1所述的基于NLP的智能阅卷方法,其特征在于,所述采用光学字符识别的方式,对所述试题图像进行识别,得到识别内容包括:
对所述试题图像进行图像预处理,得到标准图像;
采用场景文本检测算法对所述标准图像进行文字定位,确定所述标准图像中的手写文字范围,作为目标文字区域;
采用预先训练好的长短时记忆神经网络模型,对所述目标文字区域进行文字识别,得到所述目标文字区域中包含的文本信息,将所述目标文字区域中包含的文本信息作为所述识别内容。
3.如权利要求1所述的基于NLP的智能阅卷方法,其特征在于,所述通过所述N-Gram模型,对每个所述基础语句进行内容纠正,得到每个所述基础语句对应的目标文本包括:
对所述基础语句进行分词解析,得到M个分词序列;
针对每个所述分词序列,根据所述分词序列中的分词在所述N-Gram模型中的词序列频度,计算每个分词序列的发生概率,得到M个所述分词序列的发生概率,其中,所述词序列频度为所述分词序列中的分词在所述N-Gram模型中出现的次数与所述N-Gram模型中所有分词出现次数的比值;
从M个所述分词序列的发生概率中,选取最大发生概率对应的所述分词序列,作为目标分词序列;
获取所述目标分词序列中每个分词的出现概率;
若存在出现概率小于预设阈值的分词,则将所述出现概率小于预设阈值的分词作为错误分词;
通过所述N-Gram模型,计算所述目标分词序列中所述错误分词所在的词序中概率最大的分词,作为纠正分词;
使用所述纠正分词更新所述目标分词序列,并将更新后的目标分词序列作为所述基础语句对应的目标文本。
4.如权利要求3所述的基于NLP的智能阅卷方法,其特征在于,所述针对每个所述分词序列,根据所述分词序列中的分词在所述N-Gram模型中的词序列频度,计算每个分词序列的发生概率,得到M个所述分词序列的发生概率包括:
针对每个所述分词序列,获取所述分词序列内的所有分词,其中,
根据所述分词序列中的分词在所述N-Gram模型中的词序列频度,使用如下公式计算
其中,为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910522451.4/1.html,转载请声明来源钻瓜专利网。