[发明专利]文档数据处理装置及程序有效
申请号: | 201080016512.7 | 申请日: | 2010-02-17 |
公开(公告)号: | CN102395964A | 公开(公告)日: | 2012-03-28 |
发明(设计)人: | 伊藤宏二;河原考司 | 申请(专利权)人: | 数创株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 樊建中 |
地址: | 日本国*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 数据处理 装置 程序 | ||
技术领域
本发明涉及文档数据(text data)处理装置及程序,特别是,涉及通过将文档数据按照作为其定类尺度(nominal scale)的类别进行分类而能够以文档数据为对象进行统计学分析处理的技术。
背景技术
现有技术下,一般是通过对集中在问卷调查的自由回答、客户服务中心或Web网站中的来自使用者的定性信息、公告牌中的记入信息等进行分析,而掌握一些特征或趋势、或者提取客户或市场的需求、或者分析客户对本公司产品的不满之处并探讨有效的处理方法。在使用计算机进行这样的分析时,需要进行对大量电子化的文档数据进行分析的处理。但是,若保持文档数据本身不变的话,则无法提取带有该文档数据的集合特征的有用信息、或者利用统计学方法进行计数等而得到对于人类有用的信息。
相对于此,存在被称为文档挖掘(text mining)的文档数据分析方法。所谓的文档挖掘是通过将未被定型化的文档数据(通常的自然句)分割成单词或词组等并对该单词或词组的出现频数或相关关系等进行分析,提取包含在文档中的意义或一定的见解等的方法。但是,由于该文档挖掘要求使用者具有高度的统计分析知识,因此,这成为阻碍文档挖掘普及的主要原因。另外,由于文档挖掘需要进行与处理相应的准备,因此,难以迅速地反复循环如下那样的分析,即,以对话方式改变分析方法并试错性地进行的分析(以下,称为“对话式分析”)。
一般来说,作为能够进行对话式分析的方法,存在被称为OLAP(online analytical processing、联机分析处理)的方法。OLAP是指使用者多维地对数据库进行分析并将其结果视觉化的系统的概念。基于OLAP的多维分析,通过设定例如按地区、按产品这样的按类别的轴并反复进行“切块(dice)”、“切片(slice)”、“向下钻取(drill down)”以及“向上钻取(drillup)”等的操作而进行,其中,“切块”是指对更换轴并进行分析后的结果进行比较,“切片”是指对关于某一类别的数据的时序性推移进行分析,“向下钻取”是指将层次化的类别的数据分阶段地向下挖掘并进行分析,“向上钻取”是与该向下钻取反向的分析。OLAP的特征是由认为有必要进行分析的使用者本身在试错的同时直接动态地操作数据。
但是,由于文档数据若保持不变的话则未被类别化,因此,无法成为OLAP操作的对象。相对于此,提出了对大量电子化的文档数据的文章进行分类(类别化)从而能够进行统计学处理的技术(例如,参照专利文献1)。在该专利文献1所记载的技术中,对作为非结构数据的自然句的文档信息进行解释,并将该文档信息转换成能够进行聚合处理的类别信息。然后,将该类别信息转换成表形式的结构数据,并整合到具有关于其他类别的结构化数据的关系数据库(RDB)中。
这样,在专利文献1中,提供了使文档数据符合OLAP的框架的方法。即,通过将文档数据的类别化功能组合到OLAP的世界上普及的RDB中,能够将OLAP的出色的分析能力应用到文档数据的分析中。其中,RDB能够通过生成任意的SQL(Structured Query Language、结构化查询语言)语句而自由地选择并提取作为分析对象的数据。利用这样的RDB的性质进行非定型分析的OLAP的框架被称为非定型OLAP。专利文献1的技术是用于使文档数据符合非定型OLAP的框架的技术。因此,也能够从包括由文档数据类别化而得到的结构化数据在内的构成RDB的多个结构化数据中选择任意的组合进行统计学分析。
专利文献1:日本特开2006-509307号公报
但是,在上述专利文献1所记载的技术中,由文档数据转换来的类别信息通过程序而被固定。即,虽然在将文档数据类别化并组合到RDB中之后,能够使用该被组合的数据进行RDB的对话式分析,但是,在如何将文档数据类别化这样的情况下,存在无法以对话方式试错性地进行操作这样的问题。
发明内容
本发明是为了解决这样的问题而作成的,其目的在于,提供一种能够将文档数据以对话方式自由地进行类别化并能够简单且迅速地反复进行试错性分析的文档数据分析方法。
为了解决上述课题,在本发明中,分析文档数据中所包含的字符串是否与作为参数而被赋予的构件字符串的任意一个一致,并取得作为一致的构件字符串所属类别的定类尺度的参数而被赋予的类别字符串。然后,将该取得的类别字符串整合到关系数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于数创株式会社,未经数创株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080016512.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新型送丝铜套接头
- 下一篇:一种重沸与进料加热二合一的加热炉