[发明专利]一种基于知识资源分类的知识资源搜索系统有效
申请号: | 201810757626.5 | 申请日: | 2018-07-11 |
公开(公告)号: | CN109325096B | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 李振凯;王焕金;曹建梅;杨祥来 | 申请(专利权)人: | 国网技术学院;国家电网有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06Q50/20 |
代理公司: | 37221 济南圣达知识产权代理有限公司 | 代理人: | 董雪<国际申请>=<国际公布>=<进入国 |
地址: | 250002 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识资源 库服务器 通信连接 采集服务器 分类服务器 模型服务器 学员信息 服务器 搜索服务器 搜索系统 分类 电力培训 检索效果 教学效果 有效解决 | ||
1.一种基于知识资源分类的知识资源搜索系统,其特征在于,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
学员信息服务器,用于存储学员的专业类别信息;
知识资源库服务器,具有存储知识资源数据的知识资源数据库;
采集服务器,通信连接所述学员信息服务器,用于从所述学员信息服务器中获取学员的专业类别信息;
模型服务器,通信连接所述采集服务器和知识资源库服务器;用于从所述知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用所述数据分类模型对所述训练集数据进行训练,生成知识资源分类模型;
分类服务器,通信连接模型服务器和知识资源库服务器,利用所述知识资源分类模型对知识资源数据库进行分类;
搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器,用于确定该学员 专业,按该专业类别从分类后的知识资源数据库中选取其对应的底层知识资源数据库,然后在该底层知识资源数据库内进行搜索操作;
所述分类服务器包括:
预处理模块,对知识资源数据库中的每一知识资源数据进行分词并去除停用词和低频词,选择知识资源特征词;
向量提取模块,通过提取知识资源特征词的特征,得到知识资源数据的TF-IDF特征向量;所述向量提取模块中包括CHI统计器和TF-IDF权重计算器,TF-IDF权重计算器根据特征词频率、包含特征词的知识资源数量以及特征词的长度信息,计算词频率-逆文档频率TF-IDF°数值,计算中通过增加特征词的长度信息的变量信息增加较长词的权重;
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类;
所述预处理模块、向量提取模块和分类模块依次通信连接。
2.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述预处理模块中设置有分词器。
3.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值,然后按所述CHI值大小排序,选取CHI值大的知识资源特征词。
4.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度,即计算词频率-逆文档频率TF-IDF,用来评估特征词的重要程度,计算过程为:特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF特征向量。
5.根据权利要求1-4任一项要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网技术学院;国家电网有限公司,未经国网技术学院;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810757626.5/1.html,转载请声明来源钻瓜专利网。