[发明专利]分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质有效
申请号: | 201180064827.3 | 申请日: | 2011-01-13 |
公开(公告)号: | CN103299304A | 公开(公告)日: | 2013-09-11 |
发明(设计)人: | 柴田秀哉;加藤守;郡光则 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 崔成哲 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 规则 生成 装置 方法 程序 以及 记录 介质 | ||
技术领域
本发明涉及制作用于将文档分类为多个类型中的某一个类型的分类规则的分类规则生成装置、分类规则生成方法、分类规则生成程序等。
背景技术
作为将文档自动地分类为多个类型中的某一个类型的方式之一,有利用机械学习的自动分类。在使用了机械学习的文档自动分类中,文档分类装置使用预先分成多个分类类型的学习样本文档来学习每个分类类型的特征,根据学习结果,进行分类对象文档的分类。
因此,利用机械学习的文档分类装置的分类的精度依赖于学习样本文档。但是,由于通过人工大量地收集被正确地分类的学习样本文档比较麻烦,所以是实用化中的课题。针对该课题,在专利文献1中,公开了通过对未分类的样本文档实施使用了字符串对照的基于规则的过滤,制作被分类为各类型的学习样本文档的技术。
专利文献1:日本特开2010-72779号公报
发明内容
但是,在所输入的未知文档的大小大的情况、在未知文档内混合存在多个话题的情况下,在专利文献1的方法中,即使未知文档被判定为某分类类型的样本文档,实际上包括与该分类类型无关的话题的可能性高。例如,在输入文档是Web页面、且记述了个人的日记的情况下,根据日记的日期,所处理的话题经常完全不同。另外,作为其他例子,在输入文档是电子邮件、且附加了多个文件的情况下,附加文件的内容针对每个文件可能完全不同。这样的无关的话题是为了生成向该分类类型的文档分类条件(分类规则)而不需要的信息,成为使分类精度降低的主要原因。
另外,如果将未知文档整体作为样本而用于学习,则成为学习对象的文本大小变得庞大,还成为学习速度降低、所制作的分类规则的大小变得庞大等导致系统的处理性能降低的主要原因。
本发明针对所属类型未知的输入文档,实施字符串对照那样的基于规则的过滤。并且,之后,根据字符串的命中位置等通过过滤的执行得到的信息,从输入文档抽出作为输入文档的一部分的部分文本,用作用于生成分类规则的学习样本。由此,本发明的目的在于提供一种可进行不包括不需要的信息的学习样本收集的分类规则生成装置。
本发明的分类规则生成装置的特征在于,具备:
输入部,输入文档而作为样本对象文档;
储存部,存储从所述样本对象文档针对每个分类类型抽出形成所述样本对象文档的部分、并且用于将分类对象的分类对象文档分类为多个所述分类类型中的某一个的分类规则的制作中使用的部分文本的抽出条件,其中,针对所述多个分类类型的每一个设定了所述抽出条件;
对照部,对照所述储存部中储存的所述抽出条件、和输入到所述输入部的所述样本对象文档;
抽出部,根据由所述对照部得到的对照结果,尝试从所述样本对象文档针对每个所述分类类型抽出所述部分文本的部分文本抽出;以及
学习部,在通过所述抽出部的所述部分文本抽出抽出了与所述分类类型对应的所述部分文本的情况下,进行使用了所抽出的所述部分文本的规定的机械学习,从而生成所述分类规则。
根据本发明的分类规则生成装置,能够提供收集不包括不需要的信息的学习样本的分类规则生成装置。
附图说明
图1是实施方式1中的网络监视系统的结构图。
图2是实施方式1中的网络监视装置300的结构图。
图3是示出实施方式1中的样本文档抽出条件160-1的图。
图4是说明实施方式1中的部分文本的抽出的图。
图5是示出实施方式1中的文档分类装置100的动作概要的流程图。
图6是示出实施方式1中的文档分类装置100的学习处理S100的详细动作的流程图。
图7是示出实施方式1中的关键字检索条件161的图。
图8是示出实施方式1中的将2个部分文本集中为一个情况的图。
图9是示出实施方式1中的类别ID的设定的图。
图10是说明实施方式1中的关键字去除条件162的图。
图11是说明实施方式1中的在某分类类型中仅设定了关键字去除条件162的情况的图。
图12是说明实施方式1中的关键字检索条件161与关键字去除条件162的并用的图。
图13是示出实施方式1中的分类处理S200的详细动作的流程图。
图14是示出实施方式1中的文档分类装置100的外观的一个例子的图。
图15是示出实施方式1中的文档分类装置100的硬件结构的图。
(符号说明)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180064827.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种时延补偿方法及装置
- 下一篇:鸡眼扣用垫圈和鸡眼扣安装方法