[发明专利]一种文件自动分类系统有效
申请号: | 201010179707.5 | 申请日: | 2010-05-24 |
公开(公告)号: | CN101937445A | 公开(公告)日: | 2011-01-05 |
发明(设计)人: | 张晓丹;乔晓东;朱礼军;梁冰 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种文件自动分类系统,属于数据挖掘领域。本发明提供的文件自动分类系统包括:输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块。本发明系统通过信息抽取模块对文件中的文本信息、图像信息、视频信息、音频信息进行抽取,分别通过文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块的预处理后,分别进入到文本分类模块、图像分类模块、视频分类模块、音频分类模块中进行分类,再采用通过融合模块对各分类结果进行综合处理得到最终分类结果。本发明方法可以得到更高准确率的文本分类结果。 | ||
搜索关键词: | 一种 文件 自动 分类 系统 | ||
【主权项】:
一种文件自动分类系统,其特征在于:包括:输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块;其连接关系为:输入模块分别与信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;文本预处理模块的输出端与文本分类模块的输入端连接;图像预处理模块的输出端与图像分类模块的输入端连接;音频预处理模块的输出端与音频分类模块的输入端连接;视频预处理模块的输出端与视频分类模块的输入端连接;文本分类模块、图像分类模块、音频分类模块、视频分类模块的输出端与融合模块的输入端连接;融合模块的输出端与输出模块连接;其主要模块的功能为:所述输入模块的主要功能是:提供数据的输入接口;所述信息抽取模块的主要功能是:从输入的待分类文件中抽取出文本信息、图像信息、视频信息、音频信息;所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理;所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理;所述文本分类模块的主要功能是:在系统训练阶段使用文本训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类;所述图像分类模块的主要功能是:在系统训练阶段使用图像训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类;所述视频分类模块的主要功能是:在系统训练阶段使用视频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类;所述音频分类模块的主要功能是:在系统训练阶段使用音频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类;所述融合模块的主要功能是采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果;所述输出模块的主要功能是:提供数据的输出功能;其工作过程分为系统训练阶段和系统分类阶段:系统训练阶段的工作过程为:第1步:将文本训练语料通过输入模块输入到文本预处理模块,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;然后,将经过预处理的文本信息传输到文本分类模块;第2步:该步骤可与第1步同步操作:将图像训练语料通过输入模块输入到图像预处理模块,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;然后,将经过预处理的图像信息传输到图像分类模块;第3步:该步骤可与第1步同步操作:将视频训练语料通过输入模块输入到视频预处理模块,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;然后,将经过预处理的视频信息传输到视频分类模块;第4步:该步骤可与第1步同步操作:将音频训练语料通过输入模块输入到音频预处理模块,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;然后,将经过预处理的音频信息传输到音频分类模块;第5步:文本分类模块对经过预处理后的文本信息提取类别特征;图像分类模块对经过预处理后的图像信息提取类别特征;视频分类模块对经过预处理后的视频信息提取类别特征;音频分类模块对经过预处理后的音频信息提取类别特征;第6步:训练结束,输出模块输出系统训练完成提示信息;系统分类阶段的工作过程为:第1步:将待分类文件通过输入模块输入到信息抽取模块;第2步:信息抽取模块从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息,分别输入到对应的文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块;第3步:在第2步的基础上,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;第4步:在第2步的基础上,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;第5步:在第2步的基础上,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;第6步:在第2步的基础上,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;第7步:在第3步的基础上,文本分类模块对经过预处理后的文本信息进行分类并将分类结果输出至融合模块;第8步:在第4步的基础上,图像分类模块对经过预处理后的图像信息进行分类并将分类结果输出至融合模块;第9步:在第5步的基础上,视频分类模块对经过预处理后的视频信息进行分类并将分类结果输出至融合模块;第10步:在第6步的基础上,音频分类模块对经过预处理后的音频信息进行分类并将分类结果输出至融合模块;第11步:融合模块采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果;第12步:分类结果经输出模块输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010179707.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于HTML的版本管理方法及系统
- 下一篇:芯片配置寄存器模块低功耗设计