[发明专利]分类文件的方法及系统有效

申请号：	201110322254.1	申请日：	2011-10-21
公开（公告）号：	CN103064855A	公开（公告）日：	2013-04-24
发明（设计）人：	陈振南;卢阳正;魏裕珍	申请（专利权）人：	铭传大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	中国国际贸易促进委员会专利商标事务所 11038	代理人：	曹瑾
地址：	中国台湾台***	国省代码：	中国台湾;71
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类文件方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明系关于一种文件分类方法及系统，尤指一种回馈式学习的文件分类方法及系统。

背景技术

因特网的快速发展，许多电子文件的服务，尤其是电子新闻的服务也与日剧增，我们因而可获得大量的有用数据。新闻网站除了报导新闻事件外，如何有效的管理这些数据是件相当重要工作。然而每日成长的新闻数量庞大，以人工来分类，不但耗时耗力，另外尚有主观判断因素、知识取得瓶颈等问题。对数据进行管理，一般常用的作法就是对数据进行自动分类，自动化文件分类利用机器学习各类别中文件的特征，再对测试数据进行自动分门别类；自动化做法的优点为能在短时间内完成分类工作，在效果上也较客观一致。目前文件分类的应用相当广泛，包括了词汇语意解析(word sense disambiguation)、信息检索(information retrieval)、信息过滤(information filtering)、网页的分类、辅助阅读(computer-assisted reading)等自然语言处理范畴。

有关自动化文件分类，传统上大多以静态知识为主的机器学习方法，其不足之处在于各类别的训练模型每一次学习且须搭配大量训练数据，各类别所习得的知识无法配合测试数据随时更新。以中华民国专利公告案I249113为例，该发明使用的分类方法即缺乏动态知识调整(回馈式学习)。另外，未知类别的猜测未与测试语料的特性相连亦是目前分类系统所存在的问题。

职是之故，发明人鉴于习知技术之缺失，乃经悉心试验与研究，并一本锲而不舍之精神，发明出本案“分类文件的方法及系统”，以下为本案的简要说明。

发明内容

有鉴于上述静态学习的问题，本发明设计一种自动调适性(adaptive)知识的学习方法，这种调适性知识的基础是从各类别所蕴藏的基础核心词汇开始，然后再从部份简单型的测试语料中提炼出不在基础核心知识内，但与测试语料相关的词汇知识。这些新产生的知识，将可再用来处理其它较困难型的测试语料。

本发明系提出一种回馈式学习的文件分类方法，该方法首先搜集领域基础核心知识。然后运用所建立的基础知识解决简易的文件，亦即将文件的特征词(或特征字)与各类别的基础知识进行相似性计算，再选取前2个高相似的数值进行差异比较，以差异性较大的数值所对应的类别为该文件的所属类别。接着，从已标示过的文件中搜集特定领域知识，用以扩充基础核心知识，用来解决其它复杂文脉的文件所属的类别。重复前述步骤直至所标示的文件没有成长时，分析已标示文件中以多数的类别作为未知类别文件的默认值。

本发明的一方面系提供一种分类文件的方法，该文件具有多个特征词，该方法包含下列步骤：藉由所述特征词，计算该文件与多个类别基础知识对应的多个相似值；计算所述相似值中的最大相似值与第二大相似值的第一比值；当该第一比值大于第一门限值时，将该文件的多个特征词放入延伸类别知识缓冲区；以及藉由该延伸类别知识缓冲区来更新所述类别基础知识。

本发明的另一方面系提供一种分类文件的系统，该文件具有多个特征词，该系统包含：处理单元，藉由所述特征词，计算该文件与多个类别基础知识对应的多个相似值，并计算这些相似值中的最大相似值与第二大相似值的比值；以及缓冲单元，当该比值大于门限值时，将该文件的多个特征词储存为延伸类别知识，其中该处理单元藉由该缓冲单元来更新该类别基础知识。

本发明的又一方面系提供一种更新类别基础知识的方法，包含下列步骤，提供多个特征字及该类别基础知识，藉由所述特征字，分别计算所述特征字与该类别基础知识间的多个相似值，以及根据所述相似值来决定是否更新该类别基础知识。

为了易于说明，本发明得藉由下述的实施例及图示而得到充分了解，并使得熟习本技艺的人士可以据以完成之，然本发明的实施型态并不限制于下列实施例中。

附图说明

图1为本发明的回馈式学习的文件分类方法的操作流程图；

图2为本发明的门限值设定概念图；

图3为本发明的分类文件的系统示意图。

具体实施方式

请参阅图1，其系为本发明的回馈式学习的文件分类方法的操作流程图。图1包含本发明几个重要的核心模块，说明如下：

首先，用户输入未标记文件(步骤1)。类别基础知识6的来源是由系统内建，这些基础知识构成初步知识种子，其数量多寡不拘。所输入的未标记文件为原始的文件，经过中文断词后，再与各类别基础知识进行相似性计算(步骤2)，其计算可采下列任一公式：

(1)Dice系数：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载