[发明专利]基于GBRT的PSC命题说话题型评分算法在审
申请号: | 202210419236.3 | 申请日: | 2022-04-20 |
公开(公告)号: | CN114841367A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 艾山·吾买尔;申云飞;刘嘉俊;范智星;早克热·卡德尔;李晶 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G10L25/60;G10L25/27 |
代理公司: | 深圳国联专利代理事务所(特殊普通合伙) 44465 | 代理人: | 王天兴 |
地址: | 830046 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gbrt psc 命题 说话 题型 评分 算法 | ||
1.一种基于GBRT的PSC命题说话题型评分算法,其特征在于:所述基于GBRT的PSC命题说话题型评分算法包括用于获得评测参考文本的语音识别子系统与在此基础上通过参考文本相关方法实现发音错误检测的发音错误检测子系统,通过按照一定的规则解析子系统的输出,即可获得命题说话评分模型的评分特征,在进行研究时,语音识别子系统采用百度智能云提供的普通话语音识别公开接口服务,而发音错误检测子系统采用云知声提供的普通话语音评测公开接口服务,在Ubuntu 20.04系统的服务器上进行,使用的GPU为NVIDIARTX 3090。使用的深度学习框架为PyTorch 1.10,使用的Python运行时版本为Python 3.8,实验中使用的CTC损失函数实现由PyTorch提供,实验中使用的回归算法实现来自于Scikit-learn、LightGBM与XGboost库,使用的Scikit-learn版本为1.0.2,LightGBM版本为3.3.2,XGBoost版本为1.5.2,实验中使用的回归模型包括Scikit-learn提供的线性回归、MLP回归、SVR、GBRT,以及由相应的库独立提供的LightGBM回归与XGBoost回归,将线性回归模型作为基线模型,对于性能会显著受超参数影响的MLP回归、GBRT、LightGBM、XGBoost模型,使用皮尔逊相关系数作为超参数优化的目标,在训练集上通过K-Fold交叉验证与超参数搜索找到使模型性能最佳的超参数组合,K-Fold的折数根据相关研究,通过对训练集样本的数量取自然对数,确定为6折,在模型配置方面,SVR模型使用RBF核,GBRT模型使用Huber Loss作为损失函数并限制最大深度为3,XGBoost模型与LightGBM模型同样使用基于直方图算法的决策树分裂点搜索算法,为了加快XGBoost模型进行超参数搜索的速度,在超参数搜索阶段XGBoost使用GPU进行模型训练,在正式的模型训练阶段与其他模型一样使用CPU进行训练,进行实验时的全局随机种子固定为1234,从而确保实验结果可复现。
2.根据权利要求1所述的基于GBRT的PSC命题说话题型评分算法,其特征在于:所述评分方法基于回归模型,使用人工设计的评分特征作为模型输入,模型的输出即为机器评分,由于PSC命题说话题的分数范围是[0,40],故超出这一范围的模型输出值将被相应地裁剪,确保最终得到的机器分数符合要求,于是命题说话评分模型可以表示为:
y*=ScoringModel(X)#(6-1)
其中X代表模型输入的评分特征,y*代表原始机器分,y代表最终输出的机器分数,式(6-1)中的ScoringModel代表基于回归方法的命题说话评分模型,它可以是线性回归等简单的回归模型,也可以是GBRT类的复杂回归的模型,这样就可以在统一的框架下对比基于线性回归、支持向量回归(Support Vector Regression,SVR)、GBRT等算法的评分模型的性能。
3.根据权利要求1所述的基于GBRT的PSC命题说话题型评分算法,其特征在于:所述回归模型的通用评估方法及普通话口语自动评测领域常用的评测方法完成对模型的评估,使用评估指标包括均方误差(Mean Squared Error,MSE)、判定系数(Coefficient ofDetermination,R2)与皮尔逊相关系数,模型性能评估在测试集上进行,方法是将专家综合评分作为真实值,评分模型输出的机器分作为预测值,计算上述评估指标,通过比较评估指标的大小找到性能最佳的模型,以下给出MSE与R2指标的计算方法;
MSE用于衡量预测值与真实值间的误差,整体误差越小则MSE的值越低,当数据集中有N个语音样本时,将它们的人工打分记为Y,机器打分记为此时Y=Y1,Y2,…,YN,则向量Y与间的MSE可以通过公式(6-3)进行计算:
R2用于衡量回归模型的解释力。人工打分Y与机器打分间的R2可以通过公式(6-4)进行计算:
其中表示Y的均值,R2的取值范围为0~1,值越接近于1则回归模型对因变量中的变异有更强的解释能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210419236.3/1.html,转载请声明来源钻瓜专利网。