[发明专利]中文文本可读性计量系统及其方法在审
申请号: | 201210030884.6 | 申请日: | 2012-02-06 |
公开(公告)号: | CN103207854A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | 宋曜廷;陈茹玲 | 申请(专利权)人: | 宋曜廷 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 隆天国际知识产权代理有限公司 72003 | 代理人: | 赵根喜;冯志云 |
地址: | 中国台*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 文本 可读性 计量 系统 及其 方法 | ||
技术领域
本发明涉及一种中文文本分析系统及其方法,尤其涉及一种提供中文文本可读性分析与评价的可读性计量系统及其方法。
背景技术
近年来随着学习汉语的人数提高,使得汉语学习事业蓬勃发展,加上网络信息的快速成长,学习范围并不局限于学校老师,学习者也可通过网络数据、书本、文章等自我学习,无论如何,良好教材与读本是学好汉语的必要条件。
对于教学者与学习者而言,良好的教材与读本有助于提升教学效能,也可提升学习成效,因而其可读性高低十分重要。可读性(readability)是指阅读材料能够被读者理解的程度(Dale & Chall,1949;Klare,1963,2000;McLaughlin,1969),可读性较高的文本具备某些特征,例如内文中有较容易阅读的字词汇(常见字、复杂度低、非技术性、意义清楚);句子中包含较少代名词与复合词或结构简单;内容符合读者的先备知识,呈现方式适当地重述先前段落;提供相关知识;以及降低无关的干扰信息等(Klare,1963,2000;van den Broek & Kremer,2000)。由上可知,可读性高的文本属于容易被读者理解的文章,例如采用具体且生活化的词汇,或选择使用较短、复杂度较低的句子,以减少读者的认知负荷。因此,若能针对文本可读性的进行判断与分析,即可提供读者适当的学习教材。
欧美研究学者已建置有成熟的线上文本分析系统(Coh-Metrix),可客观且量化分析文本特性,但其应用于拼音文字,然而中文与拼音文字为两种迥异的文字系统,因而无法直接适用,此外,对于中文文本分析研究上,先前虽有国内学者发展一系列中文适读性公式,但年代已久已不符现代文本使用。综上所述,目前中文可读性研究中仍有下列限制有待突破:(1)亟待发展符合中文特性与现代语言脉络的可读性指针;(2)因过去可读性公式仅选择少数、表浅的语言特征,不够周延,亟待建立包含更多且较为完整的可读性指针;(3)亟待发展具有效度的可读性数学模型。
因此,如何能提供学习者或教育者具有更佳效度的可读性数学模型来进行文本可读性分析,此仍属本领域的技术人员所应努力的目标。
发明内容
鉴于上述现有技术的缺点,本发明的目的在于提出一种中文文本可读性计量系统及其方法,通过断词(segment)、可读性指针分析并建立可读性数学模型,以产生可读性分析结果。
为达成前述目的及其它目的,本发明提供一种中文文本可读性计量系统,应用于数据处理设备中,并通过该数据处理设备予以执行,该中文文本可读性计量系统包括:断词模块、可读性指针分析模块及智能型计算模块。断词模块应用于文本数据的断词处理,用以将该文本数据与一语料库进行比对以借由该文本数据产生多个断词,且产生对应所述多个断词的词性设定;可读性指针分析模块依据该文本数据中预定的可读性指针,对所述多个断词及所述多个词性设定进行分析,以通过计算得到所述多个可读性指针的指针数值;而智能型计算模块包括一预定的可读性数学模型,用以将所述多个指针数值输入该可读性数学模型以产生分析结果。
于一实施例中,该词性设定的内容包括该断词的词性标记、以及该断词模块对应所述多个断词所产生的断词信息与词性标记信息;而该可读性指针由词汇特征、语意特征、语法特征或篇章凝聚性特征的至少一个所组成。
于另一实施例中,该可读性数学模型为一般线性或非线性。此外,该非线性的可读性数学模型由支持向量机(support vector machine,SVM)或如人工神经网络(artificial neural network,ANN)等多种人工智能分类器整合而成。
另外,本发明还提出一种中文文本可读性计量分析方法,其应用于数据处理装置中,并通过该数据处理装置予以执行,该中文文本可读性计量分析方法包括以下步骤:1)将文本数据与一语料库进行比对以借由该文本数据得到多个断词;2)对所述多个断词进行词性设定;3)将所述多个断词付与词性设定,并对应至预定的可读性指针,以通过计算产生该文本数据中所述多个可读性指针的指针数值;以及4)利用一可读性数学模型,整合所述多个指针数值得到该文本数据可读性的分析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋曜廷,未经宋曜廷许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210030884.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于网络的平台系统
- 下一篇:定影装置以及图像形成装置