[发明专利]将英文视频或文本难度对标至国内年级的系统和方法在审
申请号: | 202110471002.9 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113095071A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 张丽萍;陈晓燕;倪巧;张姗姗;曹魏;王翼;陈巧燕;洪来君 | 申请(专利权)人: | 杭州菲助科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/211;G06K9/00;G06K9/62 |
代理公司: | 杭州橙知果专利代理事务所(特殊普通合伙) 33261 | 代理人: | 杜放 |
地址: | 310000 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 英文 视频 文本 难度 国内 年级 系统 方法 | ||
1.一种将英文视频或文本难度对标至国内年级的方法,其特征在于,包括步骤:
(1)选取变量:设年级为因变量y;自变量包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
(2)建立模型:采用多分类逻辑回归模型:
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;
(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;
(5)将预测概率中最大值对应的年级为模型预测的年级。
2.如权利要求1所述的将英文视频或文本难度对标至国内年级的方法,其中,步骤(3)中,从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。
3.如权利要求2所述的将英文视频或文本难度对标至国内年级的方法,其中,步骤(3)中,得到各年级的预测概率公式为:
其中,
G10=
16.947-0.108*words-0.344*mls+0.237*mlt-0.451*mlc-0.666*vp_t+8.732*dc_c+1.294*t_s+2.125*ct_t-4.383*cp_c-2.041*cn_t-2.119*cn_c-1.091*Automated-0.527*Dale_Chall+0.103*Lix-0.117*smog-0.042*sentences+0.017*complex_words-1.673*syllables-27.405*IF(speed=1,1,0)+18.409*IF(speed=2,1,0)+5.296*IF(speed=3,1,0)+2.556*IF(speed=4,1,0)+17.109*IF(y0=11,1,0)+30.943*IF(y0=13,1,0);
G11=
11.896-0.075*words-0.245*mls+0.198*mlt-0.311*mlc+0.195*vp_t+2.813*dc_c+1.905*t_s+4.398*ct_t-0.742*cp_c-2.227*cn_t-0.988*cn_c-1.161*Automated-0.322*Dale_Chall+0.236*Lix+0.164*smog+0.031*sentences-0.05*complex_words-7.744*syllables-9.283*IF(speed=1,1,0)+18.73*IF(speed=2,1,0)+5.006*IF(speed=3,1,0)+2.564*IF(speed=4,1,0)+20.547*IF(y0=11,1,0)+36.685*IF(y0=13,1,0);
G12=
4.012-0.066*words-0.172*mls+0.138*mlt-0.337*mlc+0.418*vp_t+4.046*dc_c+2.493*t_s+0.513*ct_t+1.119*cp_c-2.534*cn_t+1.64*cn_c-0.835*Automated-0.409*Dale_Chall+0.058*Lix+0.709*smog+0.117*sentences-0.228*complex_words-2.221*syllables-28.621*IF(speed=1,1,0)+15.635*IF(speed=2,1,0)+2.06*IF(speed=3,1,0)+1.641*IF(speed=4,1,0)+20.686*IF(y0=11,1,0)+39.951*IF(y0=13,1,0);
G13=
5.697-0.052*words-0.243*mls+0.161*mlt-0.181*mlc+1.398*vp_t+1.864*dc_c+2.808*t_s-1.829*ct_t-0.159*cp_c-1.488*cn_t+1.014*cn_c-0.81*Automated-0.337*Dale_Chall+0.115*Lix+0.684*smog+0.123*sentences-0.259*complex_words-4.814*syllables-11.017*IF(speed=1,1,0)+17.506*IF(speed=2,1,0)+2.204*IF(speed=3,1,0)+2.478*IF(speed=4,1,0)+17.363*IF(y0=11,1,0)+38.759*IF(y0=13,1,0);
G14=
1.422-0.026*words-0.186*mls+0.09*mlt-0.037*mlc+0.98*vp_t+0.933*dc_c+2.846*t_s-0.884*ct_t-0.921*cp_c-0.759*cn_t+1.494*cn_c-0.66*Automated-0.232*Dale_Chall+0.062*Lix+0.296*smog+0.061*sentences-0.118*complex_words-1.379*syllables-29.617*IF(speed=1,1,0)+16.328*IF(speed=2,1,0)+1.756*IF(speed=3,1,0)+1.868*IF(speed=4,1,0)+13.794*IF(y0=11,1,0)+37.352*IF(y0=13,1,0);
G15=
6.825-0.011*words-0.184*mls+0.119*mlt-0.214*mlc+0.663*vp_t-1.105*dc_c+2.072*t_s-0.741*ct_t-1.147*cp_c-0.942*cn_t+2.168*cn_c-0.272*Automated-0.186*Dale_Chall+0.053*Lix+0.423*smog+0.014*sentences-0.072*complex_words-4.697*syllables-28.571*IF(speed=1,1,0)+15.826*IF(speed=2,1,0)+0.562*IF(speed=3,1,0)+1.268*IF(speed=4,1,0)+11.549*IF(y0=11,1,0)+35.405*IF(y0=13,1,0);
G16=0;
其中,IF(speed=1,1,0)表示speed=1时取1,否则取0;
其中,words为去重单词数;mls为句子净长度;mlt为T-unit的长度;mlc为从句的净长度;vp_t为T-unit的动词短语数量;dc_c为每个从句的从句数量;t_s为每个句子的T-unit数量;ct_t为复杂T-unit的数量;cp_c每个从句的并列短语数量;cn_t每个T-unit的复合名词数量;cn_c每个从句的复合名词数量;smog为SMOG指数;Automated为AutomatedReadability指数;Dale_Chall为Dale-Chall Final Score;Lix为Lix指数;sentences为句子数;complex_words为复杂单词数;syllables平均每单词音节数;speed为语速;y0为初始年级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州菲助科技有限公司,未经杭州菲助科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110471002.9/1.html,转载请声明来源钻瓜专利网。