[发明专利]一种基于PCA算法的中文主观题自动评分方法在审
申请号: | 201910243875.7 | 申请日: | 2019-03-28 |
公开(公告)号: | CN109977410A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 吴以凡;徐超;张桦;戴国骏 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于PCA算法的中文主观题自动评分方法。该方法包括:接收用户输入的问题的参考答案和考生答案;对参考答案和考生答案进行分词,去停用词,去符号等操作;获取对应词语的词向量进行加权平均得到句子向量集合;对集合进行PCA计算得到最终的Sentence Embedding;然后计算参考答案的考生答案对应的句子向量的cos距离,得到相似度值;最后用该题的分数乘以相似度得到最终的考生得分。本发明通过加入特殊的加权计算和PCA去除不重要成分等计算,提高了中文语句相似度算法的准确度,也加强了中文主观题自动评分算法的可行性和准确性。 | ||
搜索关键词: | 考生答案 主观题 算法 中文 句子向量 相似度 答案 参考 集合 语句相似度 准确度 加权计算 加权平均 接收用户 评分算法 词向量 停用词 分词 去除 词语 考生 | ||
【主权项】:
1.一种基于PCA算法的中文主观题自动评分方法,其特征在于该方法包括以下步骤:步骤1、获取维基百科中文语料库。步骤2、对维基百科语料库进行文本预处理操作。步骤3、利用步骤2中的文本数据计算特定词语在语料库中的出现的概率值。步骤4、将步骤2中得到的文本数据利用word2vec网络训练得到词向量矩阵。步骤5、通过爬虫在网上爬取主观题的参考答案和对应的考生答案。步骤6、对步骤5中的参考答案和考生答案进行文本预处理操作。步骤7、获取目标文本词语对应的词向量。步骤8、计算每个词语对应的权重。步骤9、利用权重与该权重对应的词向量得到该词语的加权词向量。步骤10、利用加权词向量和考生答案和参考答案的词语序列得到对应的句子向量。步骤11、对句子矩阵向量矩阵进行PCA操作,得到新的向量矩阵。步骤12、计算考生答案和参考答案的相似度。步骤13、计算考生得分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910243875.7/,转载请声明来源钻瓜专利网。