[发明专利]将英文视频或文本难度对标至国内年级的系统和方法在审
申请号: | 202110471002.9 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113095071A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 张丽萍;陈晓燕;倪巧;张姗姗;曹魏;王翼;陈巧燕;洪来君 | 申请(专利权)人: | 杭州菲助科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/211;G06K9/00;G06K9/62 |
代理公司: | 杭州橙知果专利代理事务所(特殊普通合伙) 33261 | 代理人: | 杜放 |
地址: | 310000 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 英文 视频 文本 难度 国内 年级 系统 方法 | ||
本发明公开了一种将英文视频或文本难度对标至国内年级的系统和方法,通过多分类逻辑回归模型,将CEFR体系下的难度分级自动对标至国内年级,可为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。
技术领域
本发明涉及英文视频难度分级,尤其涉及一种将英文视频难度对标至国内年级的系统和方法。
背景技术
现有技术中有国内外英文学习软件可将英文文本的难度对标到CEFR的各难度级别。CEFR全称为Common European Framework of Reference for Language,即欧洲共同语言参考标准,是欧洲委员会在2001年11月通过的一套建议标准,用于描述外语学习者语言能力程度的标准体系,成为全球通用的语言能力分级的重要参考依据,被全球各类教育机构、企业及政府部门广泛认可及使用,为各国开展语言设计、语言测试及教材编纂工作提供指导依据。但是,针对中国教育体制内,如从高中到大学,将视频难度定级到体制内年级,这种分级和对标的方法目前国内尚属空白。国内各年级学生选取适合的学习材料时,缺乏类似的难度分级、对标的方法和工具为中国教育体制内不同年级的学生选择英文学习材料提供精准有效的指导。
而且,文本定级工具只能测量文本的难度,在阅读文本的过程中,读者可快可慢,完全可以自己掌控节奏,而看视频的过程只能跟着视频的节奏去理解内容,所以用文本难度定级工具对于视频内容难度定级方式有些单薄,缺乏对于视频形式内容考量例如视频语速,语音语调等也会造成学习者的理解难度上升。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种可将英文视频或文本难度对标至国内年级的系统和方法。
为实现上述目的,本发明在第一方面提供了一种将英文视频或文本难度对标至国内年级的方法,包括步骤:
(1)选取变量:设年级为因变量y;自变量包括:去重单词数、句子净长度、T-unit的长度、从句的净长度、T-unit的动词短语数量、每个从句的从句数量、每个句子的T-unit数量、复杂T-unit的数量、每个从句的并列短语数量、每个T-unit的复合名词数量、每个从句的复合名词数量、SMOG指数、Dale-Chall Final Score、Lix指数、句子数、复杂单词数、平均每单词音节数、语速和初始年级;
(2)建立模型:采用多分类逻辑回归模型:
其中,P为各年级的概率值;Y表示总体的年级;χ表示自变量向量;ω为系数向量;K表示因变量的取值个数;e为自然常数;
(3)通过人工标定法生成训练样本库,并用训练样本库对模型进行回归训练,得到回归模型;
(4)根据回归模型对英文视频进行分析,得到各年级的预测概率值;
(5)将预测概率中最大值对应的年级为模型预测的年级。
进一步地,步骤(3)中,从视频库里随机挑选CEFR难度为B1、B2或C1的视频,由人工标定年级,对应年级范围为10-16,剔除无效样本后得到有效样本,采用分层法,将每个层即年级的样本随机按7:3的比例划分为训练样本库和测试样本库。进一步地,步骤(3)中,得到各年级的预测概率公式为:
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州菲助科技有限公司,未经杭州菲助科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110471002.9/2.html,转载请声明来源钻瓜专利网。