[发明专利]一种文本可读性自动评估方法及装置在审
申请号: | 202110692831.X | 申请日: | 2021-06-22 |
公开(公告)号: | CN113343690A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 于东;唐玉玲;张宇飞 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 可读性 自动 评估 方法 装置 | ||
本发明公开了一种文本可读性自动评估方法及装置,该文本可读性自动评估方法包括:构建适用于汉语母语学习者的汉字难度等级表;其中,所述汉字难度等级表中包括待评价难度的汉字和各待评价难度的汉字所对应的难度等级;根据所述汉字难度等级表,获取待评估文本中每一汉字的难度等级信息;将汉字的难度等级信息与图神经网络结合,实现对待评估文本可读性的自动评估;其中,句子的可读性评估被转换为图节点分类任务,段落及篇章的可读性评估被转换成图分类任务。本发明对文本的分析更加有针对性,评估效果更好。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种文本可读性自动评估方法及装置。
背景技术
可读性研究是语言学和心理学领域的重要课题之一。对文本进行可读性分析是可读性研究的核心。可读性分析的任务是,给定一篇文本,通过对文本进行分析,给出该文本的难度值或者判断该文本适合哪一水平的读者。
最初的可读性分析主要是请有经验的专家或者教师对文本进行主观评定,这种方法有很强的主观性,评定者的标准不同,目的不同,评定结果也往往不同。根据分析思路和关键技术的不同,我们将可读性的自动分析方法分为公式法,分类法和排序法。公式法:通过建立线性方程,把影响文本难度的一些语言特征作为变量来预测文本的难度值,使用的特征一般为浅层的语言特征,如词长,句长等;分类法:把文本难度的预测作为分类任务,从不同等级的文本中学习一系列具有区别性的文本特征,构造分类模型,输入没有标签的新文本后,分类模型根据学习的结果估计文本的难度等级;排序法:构建比较器,利用人工标注得到文本的两两对比的相对难度来对文本进行排序,得到按难度排序的文本集合,该方法的缺陷是不能给出具体的难度值或难度等级。
基于分类的方法是当前可读性自动评估最常见的方法。在机器学习中,分类被定义为:给定一组训练实例{X1,X2,...,Xn},每个训练实例有类别标签。通过学习有标签的训练实例,训练模型f(X-Y),从而对新的实例做出类别预测。大量研究表明,除了浅层的句长,词长等特征,基于分类方法的可读性自动分析能考虑更多的语言特征,如词汇熟悉度,句法复杂度等,评估结果比可读性公式更加地准确,并且在区分高难度文本上有显著优势。
现有的基于分类的可读性自动分析模型按照发展顺序依次为传统统计机器学习模型,如N元词隶属度模型,支持向量机SVM,基于RNN,CNN以及Transformer的深度学习模型,具有代表性的就是Bilstm,TextCNN,Bert。
N元词串隶属度模型是一种基于词概率的统计语言模型,其把文本当成一连串的字符序列,并假定文本的可读性级别和文本的用词有关,且文本的可读性级别相互独立。在训练阶段,该方法首先根据训练样本数据,统计每个N元词串隶属于每个级别的概率。在预测阶段,对于一个未知级别的文本T,计算其属于所有级别的隶属度,取隶属度最大的等级作为与该文本相匹配的难度等级。
支持向量机是Cortes等提出的基于结构风险最小化原理的统计学习理论,主要用于分类问题。支持向量机结合各种能够表征难度的语言特征进行建模。这些特征或是从N元模型中学习到的文本特征,或是归纳总结和提取的各种浅层或深层的语言学特征,如词法,句法特征等。
传统机器学习的方法结合各种语言难度特征,可以很好地对文本的可读性进行自动评估,但是传统机器学习的方法只是将文本的语言字词运用上的难度特征考虑进来,缺乏对语义难度信息的考量。
深度学习方法在可读性自动分析任务上取得了很好的表现,前人在Bilstm上自动学习难度特征进行模型训练取得了不错的效果,Lstm善于捕捉较长的序列信息,它在每个时间步的输入有两部分信息,一部分是前一段时间的保留信息,一部分是当前时间步对应的原始信息,由此,Lstm可以在最后一个时间步获取到整个序列的信息,并且丢弃掉模型认为没有用的信息。对于可读性自动分析任务,影响可读性的因素和整个文本序列有关,通过这种RNN内核的序列特征提取器,可以有效捕捉到表征整个文本的难度信息,但是这种表征能力有限,当遇到较长的文本序列时,其特征捕获的能力也显得捉襟见肘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110692831.X/2.html,转载请声明来源钻瓜专利网。