[发明专利]一种基于PCA算法的中文主观题自动评分方法在审

申请号：	201910243875.7	申请日：	2019-03-28
公开（公告）号：	CN109977410A	公开（公告）日：	2019-07-05
发明（设计）人：	吴以凡;徐超;张桦;戴国骏	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	杭州千克知识产权代理有限公司 33246	代理人：	周希良
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于PCA算法的中文主观题自动评分方法。该方法包括：接收用户输入的问题的参考答案和考生答案；对参考答案和考生答案进行分词，去停用词，去符号等操作；获取对应词语的词向量进行加权平均得到句子向量集合；对集合进行PCA计算得到最终的Sentence Embedding；然后计算参考答案的考生答案对应的句子向量的cos距离，得到相似度值；最后用该题的分数乘以相似度得到最终的考生得分。本发明通过加入特殊的加权计算和PCA去除不重要成分等计算，提高了中文语句相似度算法的准确度，也加强了中文主观题自动评分算法的可行性和准确性。
搜索关键词：	考生答案主观题算法中文句子向量相似度答案参考集合语句相似度准确度加权计算加权平均接收用户评分算法词向量停用词分词去除词语考生
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于PCA算法的中文主观题自动评分方法，其特征在于该方法包括以下步骤：步骤1、获取维基百科中文语料库。步骤2、对维基百科语料库进行文本预处理操作。步骤3、利用步骤2中的文本数据计算特定词语在语料库中的出现的概率值。步骤4、将步骤2中得到的文本数据利用word2vec网络训练得到词向量矩阵。步骤5、通过爬虫在网上爬取主观题的参考答案和对应的考生答案。步骤6、对步骤5中的参考答案和考生答案进行文本预处理操作。步骤7、获取目标文本词语对应的词向量。步骤8、计算每个词语对应的权重。步骤9、利用权重与该权重对应的词向量得到该词语的加权词向量。步骤10、利用加权词向量和考生答案和参考答案的词语序列得到对应的句子向量。步骤11、对句子矩阵向量矩阵进行PCA操作，得到新的向量矩阵。步骤12、计算考生答案和参考答案的相似度。步骤13、计算考生得分。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910243875.7/，转载请声明来源钻瓜专利网。

上一篇：一种基于用户聊天习惯的智能表情推荐方法和系统
下一篇：一种数据处理方法、装置及电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于PCA算法的中文主观题自动评分方法在审

专利文献下载