[发明专利]基于GBRT的PSC命题说话题型评分算法在审
申请号: | 202210419236.3 | 申请日: | 2022-04-20 |
公开(公告)号: | CN114841367A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 艾山·吾买尔;申云飞;刘嘉俊;范智星;早克热·卡德尔;李晶 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G10L25/60;G10L25/27 |
代理公司: | 深圳国联专利代理事务所(特殊普通合伙) 44465 | 代理人: | 王天兴 |
地址: | 830046 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gbrt psc 命题 说话 题型 评分 算法 | ||
本发明公开了一种基于GBRT的PSC命题说话题型评分算法,涉及信息技术领域,该基于GBRT的PSC命题说话题型评分算法包括用于获得评测参考文本的语音识别子系统与在此基础上通过参考文本相关方法实现发音错误检测的发音错误检测子系统,通过按照一定的规则解析子系统的输出,即可获得命题说话评分模型的评分特征,在进行研究时,语音识别子系统采用百度智能云提供的普通话语音识别公开接口服务,而发音错误检测子系统采用云知声提供的普通话语音评测公开接口服务。
技术领域
本发明涉及信息技术领域,特别涉及一种基于GBRT的PSC命题说话题型评分算法。
背景技术
命题说话题型属于开放式口语评测技术,它测查应试人在无文字凭借的情况下说普通话的水平,重点测查语音标准程度、词汇语法规范程度和自然流畅程度。由于命题说话题型评测的复杂性,目前,在普通话水平测试中及各种公开的普通话学习软件及服务中,朗读题型大多已经实现了机器自动评分,但是命题说话部分仍然需要通过由专家人工评分的方式来取得较准确的评测结果。研究与人工专家打分结果具有较高相关度的普通话命题说话题型自动评测技术,对普通话的推广具有重要的现实意义。目前的命题说话等自由表述口语自动评分研究,主要使用线性回归或多层感知机回归等机器学习方法,构建基于单个模型的评分模型,尚未见到基于集成学习(Ensemble Learning) 方法的自动评分研究。目前的命题说话等自由表述口语自动评分研究,主要使用线性回归或多层感知机(Multi-Layer Perceptron,MLP)回归等机器学习方法,构建基于单个模型的评分模型,尚未见到基于集成学习方法的自动评分研究。
发明内容
本发明所要解决的技术问题是提供一种基于GBRT的PSC命题说话题型评分算法,在基于人工设计特征与GBRT评分算法的PSC命题说话自动评测模型框架的基础上,在自建的PSC命题说话数据集上通过实验对比了采用线性回归、支持向量回归、多层感知机回归、GBRT、LightGBM 和XGBoost等回归模型时的评分模型性能。
为实现上述目的,本发明提供以下的技术方案:
该基于GBRT的PSC命题说话题型评分算法包括用于获得评测参考文本的语音识别子系统与在此基础上通过参考文本相关方法实现发音错误检测的发音错误检测子系统,通过按照一定的规则解析子系统的输出,即可获得命题说话评分模型的评分特征,在进行研究时,语音识别子系统采用百度智能云提供的普通话语音识别公开接口服务,而发音错误检测子系统采用云知声提供的普通话语音评测公开接口服务,在Ubuntu 20.04系统的服务器上进行,使用的GPU为NVIDIA RTX 3090。使用的深度学习框架为PyTorch 1.10,使用的Python运行时版本为Python 3.8,实验中使用的CTC 损失函数实现由PyTorch提供。实验中使用的回归算法实现来自于Scikit-learn、LightGBM与 XGboost库,使用的Scikit-leam版本为1.0.2,LightGBM版本为3.3.2,XGBoost版本为1.5.2。实验中使用的回归模型包括Scikit-learn提供的线性回归、MLP回归、SVR、GBRT,以及由相应的库独立提供的LightGBM回归与XGBoost回归。本文将线性回归模型作为基线模型。对于性能会显著受超参数影响的MLP回归、GBRT、LightGBM、XGBoost模型,本文使用皮尔逊相关系数作为超参数优化的目标,在训练集上通过K-Fold交叉验证与超参数搜索找到使模型性能最佳的超参数组合。K-Fold的折数根据相关研究,通过对训练集样本的数量取自然对数,确定为6折。在模型配置方面,SVR模型使用RBF核,GBRT模型使用HuberLoss作为损失函数并限制最大深度为3, XGBoost模型与LightGBM模型同样使用基于直方图算法的决策树分裂点搜索算法。为了加快XGBoost模型进行超参数搜索的速度,在超参数搜索阶段XGBoost使用GPU进行模型训练,在正式的模型训练阶段与其他模型一样使用CPU进行训练。进行实验时的全局随机种子固定为1234,从而确保实验结果可复现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210419236.3/2.html,转载请声明来源钻瓜专利网。