[发明专利]一种定标集确定方法及装置在审
申请号: | 201910361757.6 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110096708A | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 王栋;付瑞吉;宋巍;王士进;胡国平;秦兵;刘挺 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雨;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 答题内容 聚类簇 定标 属性差别 抽取 聚类 从属 申请 评测 自动评测 准确度 均衡性 答题 题目 覆盖 保证 | ||
1.一种定标集确定方法,其特征在于,包括:
获取各答题对象对目标题目的答题内容;
根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,包括:
确定每两条答题内容的相似度,所述相似度表征了该两条答题内容的属性差别;
根据所述每两条答题内容的相似度,对各所述答题内容进行聚类。
3.根据权利要求2所述的方法,其特征在于,所述确定每两条答题内容的相似度,包括:
确定每两条答题内容的相似度特征向量;
根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度。
4.根据权利要求3所述的方法,其特征在于,所述确定每两条答题内容的相似度特征向量,包括:
确定每一所述答题内容的聚类特征;
针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量。
5.根据权利要求3所述的方法,其特征在于,所述根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度,包括:
确定所述目标题目所属的目标题型;
确定与所述目标题型对应的权重向量,所述权重向量表示目标题型的目标题目下,每两条答题内容的相似度特征向量中,各维度对相似度值的影响比重;
基于所述权重向量,对所述每两条答题内容的相似度特征向量做加权求和或加权平均,得到每两条答题内容的相似度值。
6.根据权利要求5所述的方法,其特征在于,所述确定与所述目标题型对应的权重向量,包括:
查询预设的题型与权重向量的对应关系,确定所述目标题型对应的权重向量;
或,
以所述目标题型下题目样本的每两条答题内容样本的相似度特征向量为输入训练样本,若训练样本对应的两条答题内容样本的人工评测结果相同,则以模型输出为1为训练目标,若训练样本对应的两条答题内容样本的人工评测结果不相同,则以模型输出为0为训练目标,训练权重预测模型;
将训练后的权重预测模型的多元回归参数组成的与相似度特征向量相同维度的向量归一化,得到所述目标题型对应的权重向量。
7.根据权利要求4所述的方法,其特征在于,所述确定每一所述答题内容的聚类特征,包括:
确定每一所述答题内容的文本特征,作为聚类特征;
和/或,
确定每一所述答题内容与所述目标题目的参考答案的相似度特征,作为聚类特征。
8.根据权利要求4所述的方法,其特征在于,所述针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量,包括:
确定每两条答题内容的聚类特征间的特征相似度;
基于每两条答题内容的特征相似度,确定每两条答题内容的相似度特征向量。
9.根据权利要求3所述的方法,其特征在于,所述确定每两条答题内容的相似度特征向量,包括:
针对每两条答题内容,根据该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
10.根据权利要求3所述的方法,其特征在于,所述确定每两条答题内容的相似度特征向量,包括:
确定每一所述答题内容的聚类特征;
针对每两条答题内容,根据该两条答题内容各自的聚类特征,以及,该两条答题内容间的文本统计特征,确定该两条答题内容的相似度特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910361757.6/1.html,转载请声明来源钻瓜专利网。