[发明专利]一种基于信息密度的数据分类方法有效
申请号: | 201510203823.9 | 申请日: | 2015-04-27 |
公开(公告)号: | CN104765726B | 公开(公告)日: | 2018-07-31 |
发明(设计)人: | 李哲涛;杨柳;关屋大雄;崔荣埈;裴廷睿;吴相润 | 申请(专利权)人: | 湘潭大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 411105 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 密度 数据 分类 方法 | ||
针对现有技术中缺乏对已有的数据文件进行分类提取目标文件的现象,本发明提出了一种基于信息密度的数据分类方法。首先根据相关内容将初级目标数据文件中的数据文件进行分类,然后计算各类型数据文件与关键词的信息密度,其次检索每一类型数据中每个文件的关键词,获得被检索的元文件及其从属类,计算并判断相对信息密度是否大于或等于阈值,是则将该元文件放入次级目标数据文件中,否则计算和类信息密度,并判断是否大于或等于阈值,是则将该元文件放入次级目标数据文件中,否则放入非目标数据文件中。本发明通过数据文件与关键词的信息密度计算即可将数据文件进行目标分类,提高了分类精度。
技术领域
本发明涉及一种基于信息密度的数据分类方法,属于数据分类与检索领域。
背景技术
我们生活在一个信息时代,随着网络技术的飞速发展,各种数据信息不断涌现,数字图书馆、远程教育、视频点播、数字视频广播、交互式电视等都产生和使用了大量的数据文件。即使我们足不出户,我们接触到的数据信息也在海量增长,因此,我们感兴趣的数据信息也随之增加了。
新闻媒体,互联网每天在新增大量的信息,而信息的分类方式日渐多样化,但如今多种类型的媒体数据文件混合并存,媒体数据文件组织结构复杂,不同类型的媒体数据文件从不同侧面可以表达同一语义,分类时需要根据数据文件之间存在的各种联系,对数据文件进行相关内容甚至根据目标内容的统一分类变得日渐需要。因此,为了帮助使用者高效率地从感兴趣的已有的数据文件中筛选出目标数据文件,如何跨越数据文件之间的界限,如何根据用户需求(关键词)提取目标数据进行分类,成为目前数据分类所面临的挑战。
为了更贴近生活中的不同需求,使得使用者能够比较方便地检索到符合其需求的数据文件,需要一种新的数据文件分类方式,但同时,又不能牺牲分类的精度,即需要找到一种合理的数据文件分类方式,在满足了不同使用者的不同需求的同时,仍然要保证较为精准的分类结果。
发明内容
针对上述问题,本发明提出一种基于信息密度的数据分类方法,即通过计算数据文件与关键词的信息密度即可将数据文件进行目标分类。
本发明提出了一种基于信息密度的数据分类方法。首先根据相关内容将初级目标数据文件中的数据文件进行分类,然后计算各类型数据文件与关键词的信息密度,其次检索每一类型数据中每个文件的关键词,获得被检索的元文件及其从属类,计算并判断相对信息密度是否大于或等于阈值,是则将该元文件放入次级目标数据文件中,否则计算和类信息密度,并判断是否大于或等于阈值,是则将该元文件放入次级目标数据文件中,否则放入非目标数据文件中。
本发明提出一种基于信息密度的数据分类方法,包括以下步骤:
步骤一:在初级目标数据文件中输入数据文件与关键词、阈值和;
步骤二:根据输入的数据文件的相关内容对初级目标数据文件进行分类,可将数据文件分为类型数据、类型数据、……、类型数据;
步骤三:计算各类型数据与关键词的信息密度——关键词在类型数据中的信息密度为,关键词在类型数据中的信息密度为,……,关键词在类型数据中的信息密度为;
步骤四:检索每一类型数据中每个文件的关键词,获得被检索的元文件,并获得其从属类;
步骤五:计算相对信息密度是否大于或等于阈值;
是则将元文件放入次级目标数据文件中;否则转步骤六;
步骤六:计算,其表示元文件所属的类数;
然后计算并判断类信息密度是否大于或等于阈值;
是则将该元文件放入次级目标数据文件;否则放入非目标数据文件。
与现有方法相比,本发明的优势在于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510203823.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库查询优化方法和设备
- 下一篇:一种分词方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置