[发明专利]古诗词词频分析方法及系统有效
申请号: | 202110675786.7 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113420554B | 公开(公告)日: | 2023-10-27 |
发明(设计)人: | 韩珍 | 申请(专利权)人: | 枣庄科技职业学院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/35 |
代理公司: | 保定国驰专利代理事务所(特殊普通合伙) 13143 | 代理人: | 唐佳芝 |
地址: | 277500 山东省枣庄市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 古诗词 词频 分析 方法 系统 | ||
1.古诗词词频分析方法,包括:
获取包括古诗词的第一数据集,根据所述第一数据集构建第一文档,所述第一数据集至少包括M首诗词;
针对所述第一文档进行词频分析,获得表征词频排序的第一列表,并根据所述第一列表,建立所述第一列表中的关键词到第一数据集中的M首诗词的名称的第一映射表;
根据虚字词库中预设虚字词信息,去除所述第一列表中的虚字词以生成第二列表,根据所述第二列表,更新所述第一映射表以形成第二映射表;所述第二映射表中至少包括了诗词对应的分类信息;
依据用户预设条件,筛选第二列表中符合预设条件且词频排序最高的至少一个关键词,并依照所述关键词与所述第二映射表的对应关系,确定N首诗词的名称;
依据N首诗词的名称,分别展示诗词内容;M大于N,且M和N均为自然数。
2.如权利要求1所述的方法,获取包括古诗词的第一数据集,包括从本地数据库中获取预存储的诗词信息,和/或从云端服务器获取预存储的诗词信息,和/或通过WebAPI接口获取所述诗词信息。
3.如权利要求1所述的方法,根据所述第一数据集构建第一文档,包括:
针对每首诗词,按照名称、作者名、年代及内容分别采集,并按照第一固定分隔符连接形成区块信息;所述区块信息还包括区块序列信息;
按照第二固定分隔符依次连接多个分别对应每首诗词的区块信息并以文本形式保存,生成第一文档。
4.如权利要求1所述的方法,针对所述第一文档进行词频分析,获得表征词频排序的第一列表,包括:
针对所述第一文档进行分词处理以获得关键词集合;
从所述关键词集合中去除停用词,所述停用词至少包括作者名及年代;
统计所述关键词集合中的词频,获得表征词频排序的第一列表。
5.如权利要求1所述的方法,建立所述第一列表中的关键词到第一数据集中的M首诗词的名称的第一映射表,包括:
依据所述关键词集合中的关键词,在所述第一文档中建立索引;
根据所述索引,获取所述关键词所在的区块序列信息;
依据所述区块序列信息,获取关键词与诗词的名称的第一映射表。
6.如权利要求4所述的方法,统计所述关键词集合中的词频,包括:
针对所述关键词集合进行聚类分析,
基于聚类分析结果生成表征词频排序的第一列表。
7.如权利要求4所述的方法,统计所述关键词集合中的词频,还包括去除词频小于第一预设值的关键词。
8.古诗词词频分析系统,包括:
数据采集单元,其配置为获取包括古诗词的第一数据集,根据所述第一数据集构建第一文档,所述第一数据集至少包括M首诗词;
词频分析单元,其配置为针对所述第一文档进行词频分析,获得表征词频排序的第一列表,并根据所述第一列表,建立所述第一列表中的关键词到第一数据集中的M首诗词的名称的第一映射表;
信息筛选模块,其配置为根据虚字词库中预设虚字词信息,去除所述第一列表中的虚字词以生成第二列表,根据所述第二列表,更新所述第一映射表以形成第二映射表;所述第二映射表中至少包括了诗词对应的分类信息;依据用户预设条件,筛选第二列表中符合预设条件且词频排序最高的至少一个关键词,并依照所述关键词与所述第二映射表的对应关系,确定N首诗词的名称;
显示单元,其配置为依据N首诗词的名称,分别展示诗词内容;M大于N,且M和N均为自然数。
9.如权利要求8所述的系统,还包括WebAPI接口、云端服务器和/或存储单元,WebAPI接口配置为从公共API获取所述第一数据集,所述云端服务器和/或存储单元配置为存储至少包含所述第一数据集的诗词信息。
10.如权利要求8所述的系统,所述词频分析单元,包括:
分词模块,其配置为针对所述第一文档进行分词处理以获得关键词集合;
停用词去除模块,其配置为从所述关键词集合中去除停用词,所述停用词至少包括作者名及年代;
词频统计模块,其配置为统计所述关键词集合中的词频,获得表征词频排序的第一列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于枣庄科技职业学院,未经枣庄科技职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110675786.7/1.html,转载请声明来源钻瓜专利网。