[发明专利]一种作文离题检测方法有效
申请号: | 201910538980.3 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110222347B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 刘杰;周建设;张凯;史金生;骆力明;马晓丽 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 北京易捷胜知识产权代理事务所(普通合伙) 11613 | 代理人: | 齐胜杰;孙晓淑 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 作文 离题 检测 方法 | ||
1.一种作文离题检测方法,其特征在于,其包括:
对收集到的作文集进行预处理,得到处理后的作文集;
对处理后的作文集中的作文进行主题模型训练,得到作文的Biterm-LDA主题模型,并对处理后的作文集中的作文进行Doc2vec模型训练,得到Doc2vec文档向量模型;
将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征;
对所述处理后的作文集中给定的话题作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化;
对降维和特征优化后的话题作文,分为切题作文和离题作文,对所述切题作文中的一部分构建话题类中心,并根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值;
根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值;
计算待测语料与话题类中心的余弦相似度,其中所述待测语料为待检测的作文;
将所述待测语料与话题类中心的余弦相似度与所述最佳阈值进行比较,如果所述待测语料与话题类中心的余弦相似度大于或等于所述最佳阈值,则所述待测语料为切题作文;如果所述待测语料与话题类中心的余弦相似度小于所述最佳阈值,则所述待测语料为离题作文。
2.如权利要求1所述的作文离题检测方法,其特征在于,所述对处理后的作文集中的作文进行主题模型训练,得到作文的Biterm-LDA主题模型之前,还包括:
对所述处理后的作文集中的作文构建词库和词对库。
3.如权利要求1所述的作文离题检测方法,其特征在于,所述对处理后的作文集中的作文进行主题模型训练,得到作文的Biterm-LDA主题模型包括:
对所述处理后的作文集中的作文采用多个不同的主题模型分别训练,得到训练结果;
根据所述多个不同主题模型的训练结果选取困惑度值最小的Biterm-LDA主题模型作为作文主题模型,并利用Biterm-LDA主题模型得到作文的主题特征表示。
4.如权利要求1所述的作文离题检测方法,其特征在于,所述对所述处理后的作文集中的作文进行Doc2vec模型训练,得到Doc2vec文档向量模型包括:
对所述处理后的作文集中的作文进行Doc2vec训练,得到Doc2vec模型;
对所述处理后的作文集中的作文采用所述Doc2vec模型从语义方面对作文特征进行扩展,得到所述Doc2vec文档向量模型。
5.如权利要求1所述的作文离题检测方法,其特征在于,所述将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征包括:
基于所述Biterm-LDA主题模型对所述处理后的作文集中的作文的文本表示为B_LDA(di),其中所述处理后的作文集中任意一篇作文记为di;
基于所述Doc2vec文档向量模型对所述处理后的作文集中的作文的文本表示为Doc2(di);
得到的组合特征为Topic_Doc2(di)=B_LDA(di)+Doc2(di)。
6.如权利要求1所述的作文离题检测方法,其特征在于,所述对所述处理后的作文集中给定的话题作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化包括:
采用孪生网络的三层感知机对所述处理后的作文集中给定的话题作文的所述组合特征进行降维和特征优化,优化后的作文特征表示为Simaese(di)=m1,m2,…mn,其中mn代表一篇作文进行优化后其中的一个特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910538980.3/1.html,转载请声明来源钻瓜专利网。