[发明专利]一种基于机器学习的中文阅读难度分级方法及系统在审
申请号: | 201710557154.4 | 申请日: | 2017-07-10 |
公开(公告)号: | CN107506346A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 任易;赵梓淳 | 申请(专利权)人: | 北京享阅教育科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62;G06N99/00 |
代理公司: | 北京卓唐知识产权代理有限公司11541 | 代理人: | 唐海力,韩来兵 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 中文 阅读 难度 分级 方法 系统 | ||
技术领域
本发明涉及人工智能领域,具体涉及一种基于机器学习的中文阅读难度分级方法及系统。
背景技术
人工智能技术是指了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能往往通过自然语言处理与机器学习等技术与语言学研究成果的结合,实现文本阅读难度分级。
阅读难度分级本质上可以概括为对文本可读性的度量问题。定义上,可读性(readability)指文本易于阅读和理解的程度。通常,可读性高的文本内容符合读者的背景知识,并且会适当地复述上文内容,并提供相关知识;此外,高可读性文本行文通常使用常见词汇和结构简单的句法结构,同时避免歧义以减少读者的认知负担。当读者阅读可读性较高的文章时,会有更好的理解和学习效果,因而给读者提供合适的高可读性文本,就可能改善读者的阅读理解表现。
现有技术中,阅读难度分级技术主要以美国“蓝思(Lexile)分级”和“AZ分级”为代表。这些技术的阅读难度分级构建体系通常依赖于传统可读性研究的基本假设,也即以词长(word length)和词频(word frequency)作为语义的指标,以句长作为语法的指标,而词长和句子较长的文章难度通常较高。基于这些假设,现有技术通常通过设计依赖于这些指标的可读性计算公式来实现对文本可读性的度量。
现有技术的不足之处在于,没有考虑语言随时代变化的特征,进而无法更新汉字难度分级表和词频表;仅通过句长或词长作为复杂度的指标,过于直觉而不能精确地反映其结构性质;以少数浅层次局部的语言特征不足以反映真实的阅读理解过程;阅读难度分级技术仅适用于英文,而英文本身与中文在语言特点上存在着极大的不同。
发明内容
本发明的目的是提供一种基于机器学习的中文阅读难度分级方法及系统,以解决上述不足之处。
为了实现上述目的,本发明提供如下技术方案:
本发明提供了一种基于机器学习的中文阅读难度分级方法,包括以下步骤:
获取训练文本和待检测文本;
根据所述训练文本的语言层面构建衡量阅读难度层次的特征集;所述特征集中至少包括:字词、语义、句子、篇章以及主题特征;
将所述特征集输入SVM模型进行训练,并通过所述训练结果对所述待检测文本进行预测,得到阅读难度等级。
上述基于机器学习的中文阅读难度分级方法,训练文本的获取包括以下步骤:
根据多个阅读难度层次和更新的中文文本构建语料库;
从所述语料库中调取相应的文本作为所述训练文本。
上述基于机器学习的中文阅读难度分级方法,字词特征的构建包括以下步骤:
通过预设的中文字词难度分级表对所述训练样本进行分析,得到字词的复杂度特征;
对所述训练样本进行词频统计,并通过预设的词频表对统计结果进行分析,得到字词的词频特征。
上述基于机器学习的中文阅读难度分级方法,语义特征的构建包括以下步骤:
对所述训练样本中的字词按照属性进行分类,得到多个类别的属性词;
在同一类别中对所述属性词进行语义相同字词数目的统计,并对统计结果进行分析,得到所述语义特征。
上述基于机器学习的中文阅读难度分级方法,句子特征的构建包括以下步骤:
根据所述训练样本进行句子复杂度的分析,得到句子的复杂度特征;
通过依存句法树对所述训练样本进行句子中词语的依存关系和语法结构的分析,得到句子的语法特征;
对所述训练样本中句子的长度进行分析,得到句子的长度特征。
上述基于机器学习的中文阅读难度分级方法,篇章特征的构建包括以下步骤:
搜寻所述训练样本中的实义词;
对所述实义词的出现频率进行统计,并根据统计结果得到篇章间的衔接特征。
上述基于机器学习的中文阅读难度分级方法,主题特征的构建包括以下步骤:
对训练样本中的标注样本进行挖掘得到主题模型;
通过主题模型对所述训练样本的目标样本进行分类,得到主题特征。
上述基于机器学习的中文阅读难度分级方法,进行训练包括以下步骤:
根据所述特征集抽取所述训练文本的对应特征;
根据所述标注样本中交叉标注的特征抽取所述训练文本中的对应特征;
通过上述对应特征进行阅读难度等级的训练,得到所述训练结果。
上述基于机器学习的中文阅读难度分级方法,进行预测包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京享阅教育科技有限公司,未经北京享阅教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710557154.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息编辑的处理方法及装置
- 下一篇:一种智能获取代跑聊天记录的方法及装置