[发明专利]一种文件自动分类系统有效
申请号: | 201010179707.5 | 申请日: | 2010-05-24 |
公开(公告)号: | CN101937445A | 公开(公告)日: | 2011-01-05 |
发明(设计)人: | 张晓丹;乔晓东;朱礼军;梁冰 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 自动 分类 系统 | ||
技术领域
本发明涉及一种文件自动分类系统,属于数据挖掘领域,适用于资源自动归类、网络内容监管、垃圾邮件过滤、数字图书馆等。
背景技术
文件自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数或分类器,该函数或分类器能把待分文件映射到给定的相应类别中。其目标是找到分类速度更快、更准确的管理文本信息的方法。
目前,大量的研究集中于文本文件分类的研究,如张晓丹等人在文献《一种决策级文本自动分类融合方法》(国家专利,专利申请号:2009100878443)中公开了一种决策级文本自动分类融合方法,其分类模型如图1所示。该方法以信息融合为理论基础,以分类精度较高的SVM、KNN、贝叶斯等文件自动分类算法为研究对象,采用多层融合结构,串、并联混和的形式,建立了决策级的文件自动分类融合模型。这种方法的缺点是:由于其仅处理文件中的本文信息,而没有对待分类文件中的图像、视频、音频等信息进行处理,导致分类的准确率不理想。这主要是由于目前网络数据中包含大量的多媒体数据,如视频、图像、音频等,因此基于文本的分类技术已无法满足人们的需要。
从已公开的文献和实际应用中,还未见到同时处理多种媒体的文件分类方法。
发明内容
本发明针对目前已有文本自动分类系统存在准确度不高的缺点,在已有的决策级文本自动分类融合模型的基础上,提出一种基于多种媒体(图像、音频、视频和文本信息)的文件自动分类系统,得到准确率更高的分类结果。
本发明是通过以下技术方案实现的。
一种文件自动分类系统,包括:输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块;
其连接关系为:输入模块分别与信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;文本预处理模块的输出端与文本分类模块的输入端连接;图像预处理模块的输出端与图像分类模块的输入端连接;音频预处理模块的输出端与音频分类模块的输入端连接;视频预处理模块的输出端与视频分类模块的输入端连接;文本分类模块、图像分类模块、音频分类模块、视频分类模块的输出端与融合模块的输入端连接;融合模块的输出端与输出模块连接。
其主要模块的功能为:
所述输入模块的主要功能是:提供数据的输入接口;
所述信息抽取模块的主要功能是:从输入的待分类文件中抽取出文本信息、图像信息、视频信息、音频信息;
所述文本预处理模块的主要功能是:对文本信息进行分词、特征提取、权重计算等预处理;
所述图像预处理模块的主要功能是:对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;
所述视频预处理模块的主要功能是:对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;
所述音频预处理模块的主要功能是:对音频信息进行前端预处理、特征提取、识别等预处理;
所述文本分类模块的主要功能是:在系统训练阶段使用文本训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类;所述文本分类模块可以是但不限于以下设备中的一种:KNN分类器、SVM分类器、贝叶斯分类器;
所述图像分类模块的主要功能是:在系统训练阶段使用图像训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类;所述图像分类模块可以是但不限于以下设备中的一种:SVM分类器、基于贝叶斯网络算法的分类器、基于BP神经网络算法的分类器;
所述视频分类模块的主要功能是:在系统训练阶段使用视频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类;所述视频分类模块可以是但不限于以下设备中的一种:KNN分类器、SVM分类器、基于Boosting算法的分类器;
所述音频分类模块的主要功能是:在系统训练阶段使用音频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类;所述音频分类模块可以是但不限于以下设备中的一种:SVM分类器、基于GMM算法的分类器;
所述融合模块的主要功能是采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果;所述决策级融合算法包括但不限于:贝叶斯网络算法、D-S证据理论算法、投票算法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010179707.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于HTML的版本管理方法及系统
- 下一篇:芯片配置寄存器模块低功耗设计