[发明专利]重题检测方法、装置、电子设备及存储介质在审
申请号: | 202310075938.9 | 申请日: | 2023-02-07 |
公开(公告)号: | CN116012866A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 凌超;沙晶;王士进 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/19;G06V30/146 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 方法 装置 电子设备 存储 介质 | ||
本发明提供一种重题检测方法、装置、电子设备及存储介质,该方法包括:获取待检测题;从多个候选题中确定所述待检测题的相似题;基于第一相似度、所述待检测题的题目特征和所述相似题的题目特征,确定所述待检测题与所述相似题是否为重题;所述第一相似度为所述待检测题的第一文本图像特征和所述相似题的第二文本图像特征之间的相似度,所述第一文本图像特征为基于所述待检测题的文本和所述待检测题对应的图像确定的,所述第二文本图像特征为基于所述相似题的文本和所述相似题对应的图像确定的。本发明提供的重题检测方法、装置、电子设备及存储介质可以提高重题检测的准确度。
技术领域
本发明涉及文本处理技术领域,尤其涉及一种重题检测方法、装置、电子设备及存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的成熟以及教育产业形态的不断细分,AI+教育得到了快速的发展。其中,在AI+教育领域中,如何从海量的待检测题中,快速、高效检测出不需要进行重复加工的题目,也即如何对待检测题进行重题检测,其已经成为了业界研究的热点问题。
目前,现有的重题检测方案,主要是通过关键词检索和规则判重系统来实现,也即先通过待检测题中所包含的关键词进行检索,从候选题目库中,检索出与待检测题中包含的关键词相同的相关题目,以粗略召回部分题目;然后,再基于该规则判重系统,将检索到的相关题目与待检测题进行一一比对、判重,以检测出待检测题是否为重题。
然而,在上述重题检测的过程中,如果待检测题中包含有数字、公式或者图案等内容时,往往会检索出大量的非相关题目,从而降低了重题检测的准确度。
发明内容
本发明提供一种重题检测方法、装置、电子设备及存储介质,用以解决现有技术中重题检测的准确度较低的缺陷,实现了提高重题检测的准确度的目的。
本发明提供一种重题检测方法,包括:
获取待检测题;
从多个候选题中确定所述待检测题的相似题;
基于第一相似度、所述待检测题的题目特征和所述相似题的题目特征,确定所述待检测题与所述相似题是否为重题;所述第一相似度为所述待检测题的第一文本图像特征和所述相似题的第二文本图像特征之间的相似度,所述第一文本图像特征为基于所述待检测题的文本和所述待检测题对应的图像确定的,所述第二文本图像特征为基于所述相似题的文本和所述相似题对应的图像确定的。
根据本发明提供的一种重题检测方法,所述基于第一相似度、所述待检测题的题目特征和所述相似题的题目特征,确定所述待检测题与所述相似题是否为重题,包括:
确定所述待检测题的题目特征和所述相似题的题目特征之间的第二相似度;
对所述待检测题进行关键词检测,基于检测到的关键词分别确定所述第一相似度对应的第一权重和所述第二相似度对应的第二权重;
基于所述第一相似度、所述第一权重、所述第二相似度和所述第二权重,确定所述待检测题与所述相似题之间的目标相似度;
基于所述目标相似度,确定所述待检测题与所述相似题是否为重题。
根据本发明提供的一种重题检测方法,所述方法还包括:
将所述待检测题的文本和所述待检测题对应的图像输入至文本图像特征提取模型,得到所述文本图像特征提取模型输出的第一文本图像特征;
其中,所述文本图像特征提取模型为基于门控特征融合机制和自注意力机制构建,并通过文本样本、对所述文本样本进行图像采集得到的图像样本训练得到的。
根据本发明提供的一种重题检测方法,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310075938.9/2.html,转载请声明来源钻瓜专利网。