[发明专利]一种基于词条作家热度构建分类分级词表的方法及系统有效

申请号：	201910420769.1	申请日：	2019-05-20
公开（公告）号：	CN110222175B	公开（公告）日：	2020-08-25
发明（设计）人：	赵慧周	申请（专利权）人：	北京语言大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/31
代理公司：	北京市广友专利事务所有限责任公司 11237	代理人：	张仲波
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于词条作家热度构建分类分级词表方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于词条作家热度构建分类分级词表的方法及系统，通过按照预设分类方式，从文学语料库中提取出预设类型的词条构成分类词集；根据分类词集中各词条在同一作家的各作品中出现的频次和该作家每一作品的总字数，计算出每一词条在同一作家的各作品中的作品热度；基于每一词条在同一作家的各作品中的作品热度，以预设函数求取每一词条对应于各作家的作家热度；将同一词条所对应的各作家热度求和，得到相应词条的词条热度；根据每一词条对应的词条热度，对分类词集中所有词条进行排序并基于排序结果构建分类分级词表。本发明可以解决对于作品字数不平衡和作家作品数不平衡的文学语料库，现有分类分级词表构建方法对词条排序不合理的问题。

技术领域

本发明涉及分类分级词表技术领域，特别是指一种基于词条作家热度构建分类分级词表的方法及系统。

背景技术

分类分级词表是儿童分级阅读计量的基础资源，在儿童的成长中，从分类分级词表中的特定类型词条的自然属性那里获得的信息，是一份极为重要的精神营养。面向儿童阅读需求构建分类分级词表可以为儿童分级阅读计量提供基础资源。而在分类分级词表的构建过程中，词汇分级是文本分级的重要依据。

现有对分类词汇进行分级的方法主要是基于语料库提取常用词经常使用“频次”和“分布”。基于频次和分布计算词的使用度，编出按使用度高低排列的分级表，其分布主要考虑的是语料的“分类”与“语篇”的数量，此方法一般适用于常规基础词语的分类分级。

但对于一些作品字数不平衡和作家作品数不平衡的文学语料库，上述方法并不适用；例如对于儿童文学语料，其中的儿童文学服务于各年龄层次的儿童，不同作品间存在很大的字数差异性；每个作家对应的作品数量也存在很大差异。如果按照使用“频次”和“分布”对儿童文学语料中提取的分类词条进行分级排序，就容易出现对于同一词条，根据篇幅较小的作品计算的使用度会偏小，而根据篇幅较大的作品计算的使用度又会偏大；并且会使得高作品数量作家作品中的分类词条在排序上占有优势；如此一来，势必造成基于此类分级方式所构建的分类分级词表不合理的问题。

发明内容

本发明要解决的技术问题是提供一种基于词条作家热度构建分类分级词表的方法及系统，针对作品字数不平衡和作家作品数不平衡的文学语料库，提供一种基于词条作家热度对词条进行排序的方案，并在此基础上构建更为合理的分类分级词表，进而为儿童分级阅读计量提供基础资源。

为解决上述技术问题，本发明的实施例提供一种基于词条作家热度构建分类分级词表的方法，其包括：

按照预设分类方式，从文学语料库中提取出预设类型的词条构成分类词集；

根据所述分类词集中各词条在同一作家的各作品中出现的频次和作品的总字数，计算出每一词条在同一作家的各作品中的作品热度；

基于每一词条在同一作家的各作品中的作品热度，以预设函数求取每一词条对应于各作家的作家热度；

将同一词条所对应的各作家热度求和，得到相应词条的词条热度；

根据每一词条对应的词条热度，对所述分类词集中所有词条进行排序并基于排序结果构建分类分级词表。

进一步地，每一词条在同一作家的各作品中的作品热度通过下式计算得出：

其中，f_i,w,j为词条i在作家w的作品j中的作品热度，FC_i,w,j为词条i在作家w的作品j中的频次，FZ_w,j为作家w的作品j的总字数，k为自定义常量。

可选地，k的取值为10000。

可选地，所述预设函数为取最大值函数，取平均值函数，取中位数函数，以及求和函数中的任意一种。