[发明专利]离题作文检测方法及装置、模型训练方法及装置在审
申请号: | 202211700106.3 | 申请日: | 2022-12-28 |
公开(公告)号: | CN116384404A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 王梦昀;汪洋;盛志超;王士进;魏思 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F18/22;G06N3/045;G06N3/048 |
代理公司: | 北京布瑞知识产权代理有限公司 11505 | 代理人: | 宗广静 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离题 作文 检测 方法 装置 模型 训练 | ||
1.一种离题作文检测方法,其特征在于,包括:
获取针对目标主题作答的待检测作文;
确定所述目标主题对应的K篇参考范文;
确定所述待检测作文和所述K篇参考范文文本间的主题相似度;
基于所述待检测作文和所述K篇参考范文文本间的主题相似度,确定所述待检测作文是否离题。
2.根据权利要求1所述的离题作文检测方法,其特征在于,所述基于所述待检测作文和所述K篇参考范文文本间的主题相似度,确定所述待检测作文是否离题,包括:
确定所述目标主题对应的主题发散度;
基于所述待检测作文和所述K篇参考范文文本间的主题相似度以及所述主题发散度,确定所述待检测作文是否离题。
3.根据权利要求2所述的离题作文检测方法,其特征在于,所述基于所述待检测作文和所述K篇参考范文文本间的主题相似度以及所述主题发散度,确定所述待检测作文是否离题,包括:
预先确定M个目标主题各自对应的主题发散度与离题阈值之间的映射表;
基于所述M个目标主题各自对应的主题发散度与离题阈值之间的映射表,确定所述目标主题的主题发散度对应的离题阈值;
将所述主题相似度与所述主题发散度对应的离题阈值进行对比,确定所述待检测作文是否离题。
4.根据权利要求2所述的离题作文检测方法,其特征在于,所述确定所述目标主题对应的主题发散度,包括:
提取所述K篇参考范文各自的隐层特征,所述隐层特征用于表征所述K篇参考范文各自对应的文本向量;
基于所述K篇参考范文各自的隐层特征,确定所述K篇参考范文中每两篇参考范文之间的余弦距离值;
基于所述K篇参考范文中每两篇参考范文之间的余弦距离,确定所述目标主题对应的主题发散度。
5.根据权利要求1至4任一项所述的离题作文检测方法,其特征在于,所述确定所述待检测作文和所述K篇参考范文文本间的主题相似度,包括:
提取所述待检测作文和所述K篇参考范文各自的隐层特征,所述隐层特征用于表征所述待检测作文和所述K篇参考范文各自对应的文本向量;
基于所述待检测作文和所述K篇参考范文各自的隐层特征,确定所述待检测作文和所述K篇参考范文的余弦距离均值;
基于所述待检测作文和所述K篇参考范文的余弦距离均值,确定所述主题相似度。
6.根据权利要求1至4任一项所述的离题作文检测方法,其特征在于,所述确定所述目标主题对应的K篇参考范文,包括:
获取针对M个目标主题作答的N篇待检测作文;
将所述N篇待检测作文进行聚类处理,确定所述M个目标主题分别对应的M个类别信息;
基于所述N篇待检测作文和所述M个类别信息,确定靠近所述目标主题对应的聚类中心的K篇待检测作文;
将所述K篇待检测作文确定为所述目标主题对应的K篇参考范文。
7.一种模型训练方法,其特征在于,包括:
获取针对M个目标主题作答的N篇待检测作文;
对所述N篇待检测作文进行分词处理,确定分词后的N篇待检测作文;
将所述分词后的N篇待检测作文作为待训练神经网络模型的输入样本集,训练所述待训练神经网络模型,得到主题表示模型,其中,所述主题表示模型用于执行上述权利要求1至6任一项所述的方法。
8.一种离题作文检测装置,其特征在于,包括:
获取模块,用于获取针对目标主题作答的待检测作文;
第一确定模块,用于确定所述目标主题对应的K篇参考范文;
第二确定模块,用于确定所述待检测作文和所述K篇参考范文文本间的主题相似度;
第三确定模块,用于基于所述待检测作文和所述K篇参考范文文本间的主题相似度,确定所述待检测作文是否离题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211700106.3/1.html,转载请声明来源钻瓜专利网。