[发明专利]文本挖掘方法、记录介质及文本挖掘装置有效
申请号: | 201780043375.8 | 申请日: | 2017-06-06 |
公开(公告)号: | CN109478191B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 秋田正史;中村康则;周景龙 | 申请(专利权)人: | 株式会社斯库林集团 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/34 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 向勇 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 挖掘 方法 记录 介质 装置 | ||
在文本分析步骤(S109~S110)中,对从被输入的文本数据中提取出的字词进行阶层式集群分析。在画面生成步骤(S111)中,根据群组数(m)与群组内的最多数据数(n),从文本分析步骤的分析结果求得(m)个集群,生成用于在画面中显示包含(n)个以下的属于集群所的字词的群组的画面数据。在分析结果显示步骤(S112)中,根据所生成的画面数据来显示画面。通过这样,将阶层式集群分析的结果以使用者可直观地理解的方式显示于画面。
技术领域
本发明涉及文本挖掘,尤其涉及将文本数据的分析结果显示于画面的文本挖掘方法、记录介质、及文本挖掘装置。
背景技术
近年来,解析以自由形态所记载的大量文本数据,并从解析结果求得有用信息的文本挖掘受到瞩目。在文本挖掘中,例如从分析对象的文本数据提取字词,并通过解析字词的出现频率与出现趋势等来求得信息。
以下,针对对从文本数据中提取出的字词进行阶层式集群分析而将分析结果显示于画面的文本挖掘装置进行探讨。在阶层式集群分析中,根据字词间的相似度,而阶层式地创建包含相似度高的字词的集群。一般而言,使用图15所示的树形图(树状结构图:Dendrogram)将阶层式集群分析的结果提供给使用者(分析者)。
与本案发明相关连地,在专利文献1中记载有一种分群装置,其具有阶层式分群单元,该阶层式分群单元构建树形图,搜索树形图而生成可自下层至上层进行确定的索引并存储于存储单元的。在专利文献2中记载有一种提供查询装置,其具有:距离矩阵计算单元,其计算出关键词间的距离,生成可搜索关键词与关键词间的距离的距离矩阵数据并存储于存储单元;及分群单元,其使用距离矩阵将关键词阶层式分群,并作为可自下层至上层地搜索所构建的树形图的自下而上索引而存储于存储单元。
现有技术文献
专利文献
专利文献1:日本专利特开2011-216021号公报
专利文献2:日本专利特开2012-150539号公报
发明内容
发明所要解决的问题
以往的文本挖掘装置使用树形图将阶层式集群分析的结果显示于画面。然而,如此的文本挖掘装置存在有用户无法直观地理解分析结果的问题。例如,在图15所示的分析结果中,在使用者将集群数设定为4时,如图16所示,会在树形图上设定分割线。然而,使用者无法仅通过看到如此的树形图,就直观地识别各集群所包含的字词。又,使用者在字词数较多而变更集群数的情形时,无法直观地掌握各集群所包含的字词会如何地变化。
又,因为树形图并未记载字词的出现频率,因此用户无法得知哪个字词较重要。又,在分析对象的文本数据为具有年月日或时刻等的信息的时间序列数据的情形时,用户有时会期望能得知分析结果随时间的变化。然而,以往的文本挖掘装置无法满足使用者的上述期望。
因此,本发明的目的在于,提供将阶层式集群分析的结果以使用者可直观地理解的方式显示于画面的文本挖掘方法、文本挖掘程序、及文本挖掘装置。
解决问题的技术手段
本发明第1实施方式是一种文本挖掘方法,将文本数据的分析结果显示于画面,其特征在于,包括:
文本分析步骤,对从被输入的文本数据中提取出的字词(可以是单字和/或单词)进行阶层式集群分析,
画面生成步骤,根据上述文本分析步骤中的分析结果来生成画面数据,以及
分析结果显示步骤,根据上述画面数据来显示画面;
在上述画面生成步骤中,根据群组数与群组内的最多数据数,从上述分析结果求得上述群组数的集群,生成用于在画面中显示包含上述最多数据数以下的属于上述集群的字词的群组的画面数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社斯库林集团,未经株式会社斯库林集团许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780043375.8/2.html,转载请声明来源钻瓜专利网。