[发明专利]一种定标集确定方法及装置在审
申请号: | 201910361757.6 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110096708A | 公开(公告)日: | 2019-08-06 |
发明(设计)人: | 王栋;付瑞吉;宋巍;王士进;胡国平;秦兵;刘挺 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雨;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 答题内容 聚类簇 定标 属性差别 抽取 聚类 从属 申请 评测 自动评测 准确度 均衡性 答题 题目 覆盖 保证 | ||
本申请公开了一种定标集确定方法及装置,本方法首先获取各答题对象对目标题目的答题内容,然后根据各所述答题内容间的属性差别,对各答题内容进行聚类,通过聚类可以将属性相近的答题内容聚集到一个聚类簇中,由此得到至少两个聚类簇,其中,从属于同一聚类簇的各答题内容的属性差别更小,而从属于不同聚类簇的答题内容的属性差别更大。进一步,从每个聚类簇中抽取答题内容,由抽取的答题内容组成定标集。综上可见,本申请抽取的定标集包含了各个聚类簇中的答题内容,也即覆盖了各属性的答题内容,保证了定标集的均衡性。进一步,基于本申请抽取的定标集训练的自动评测模型,其评测准确度也会更高。
技术领域
本申请涉及自然语言处理领域,更具体地说,涉及一种定标集确定方法及装置。
背景技术
当今社会各行各业都存在对用户的考评,且考试的种类越来越多,考试过程需要对答题者提交的答题内容进行评测,以对答题者的水平进行衡量。评测过程可以采用有定标评测方法,即自动评测前,需要预先抽取一部分答题内容进行人工评测,人工评测后的答题内容可以作为自动评测模型的定标集。
目前,定标集的抽取方法为在所有答题内容中随机抽取一定数量的答题内容。可以理解的是,由于答题者的水平参差不齐,所以答题内容间也存在差别。按照现有的随机抽取法抽取的定标集,可能无法均匀的覆盖各水平答题者的答题内容,由此造成定标集的不均衡,基于该定标集训练后的自动评测模型的准确度也会降低。
发明内容
有鉴于此,本申请提供了一种定标集确定方法及装置,以解决现有定标集确定方法中抽取的定标集不均衡的缺点。
为了实现上述目的,现提出的方案如下:
一种定标集确定方法,包括:
获取各答题对象对目标题目的答题内容;
根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,得到至少两个聚类簇;
从每个所述聚类簇中抽取答题内容,由抽取的答题内容组成定标集。
优选地,根据各所述答题内容间的属性差别,对各所述答题内容进行聚类,包括:
确定每两条答题内容的相似度,所述相似度表征了该两条答题内容的属性差别;
根据所述每两条答题内容的相似度,对各所述答题内容进行聚类。
优选地,确定每两条答题内容的相似度,包括:
确定每两条答题内容的相似度特征向量;
根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度。
优选地,确定每两条答题内容的相似度特征向量,包括:
确定每一所述答题内容的聚类特征;
针对每两条答题内容,根据该两条答题内容各自的聚类特征,确定该两条答题内容的相似度特征向量。
优选地,根据每两条答题内容的相似度特征向量,确定每两条答题内容的相似度,包括:
确定所述目标题目所属的目标题型;
确定与所述目标题型对应的权重向量,所述权重向量表示目标题型的目标题目下,每两条答题内容的相似度特征向量中,各维度对相似度值的影响比重;
基于所述权重向量,对所述每两条答题内容的相似度特征向量做加权求和或加权平均,得到每两条答题内容的相似度值。
优选地,确定与所述目标题型对应的权重向量,包括:
查询预设的题型与权重向量的对应关系,确定所述目标题型对应的权重向量;
或,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910361757.6/2.html,转载请声明来源钻瓜专利网。