[发明专利]一种基于占用矩阵的词云图可视化方法有效
申请号: | 201410020352.3 | 申请日: | 2014-01-16 |
公开(公告)号: | CN103778213B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 刘连忠;李春芳;徐同阁;陈梦东;唐文忠 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100091*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 占用 矩阵 云图 可视化 方法 | ||
技术领域
本发明属于数据挖掘和数据可视化领域,涉及一种词云图可视化方法,具体设计了一组基于占用矩阵的任意形状、任意角度、无重叠、字模提取、具有语义分类的词云图可视化算法。
背景技术
词云图(Word Cloud)是一种富信息文本可视化技术,通过布局算法用文字大小表示词频,辅以多种色彩显示,直观反映词组重要性差异,展示文本关键摘要信息。近年来,词云图作为极富表现力的可视化载体,广泛应用于网站导航、社会化标签呈现、Web文本分析以及各种文本挖掘和可视化场景。
词云图起源于标签云。标签云(Tag clouds),早在1997年已被作为网站可视化导航手段,用字体大小表示标签频数,文字逐行水平排列。2002年,照片分享网站Flickr用标签云表示标签流行程度。随后,网络书签应用del.icio.us也采用它标注用户的大量社会化标签。此后,大量网站使用标签云,导航离散的分类信息,点击标签链接进入相应的内容页面,统计易用性使它成为Web2.0时代的显著标志之一。近年,通过用户输入创建标签云的专业网站出现,包括TagCrowd、Tag Cloud Generator以及IBM的可视化分享网站Many Eyes。
标签云在布局复杂美观以及应用的延伸,逐渐演变发展了另一种独立的文本可视化技术——词云图。词云图通过色彩和布局增强了标签云的视觉效果,帮助人们简明扼要地了解文本的大体内容,实际上是一种离散的自动摘要生成和可视化工具。图1是标签云和词云图布局比较。标签云目前主要用于网站导航,而词云图用于各种文本可视化,但在某些情况下有相互指代之意,如维基百科中“Word Cloud”词条直接指向了“Tag Cloud”,在百度搜索结果中也反映了两词相互指代的特点。
1.国内外词云图应用
沟通性和解说性是可视化的优势,特别用于向非专家用户描述一些专业抽象的信息。2008年美国总统大选期间,大量新闻报道采用词云图对比民主、共和两党候选人演讲用词,这一全新的文本可视化有效宣传了竞选核心理念。2013年我国“两会”期间,清华大学自然语言处理与社会人文计算实验室利用词云图对“两会”报告形象解读,产生了很强的社会反响,见图2所示。词云图的个人应用包括博客、微博、诗歌和歌词等文本统计和可视化。
2008年6月,美国可视化学者Jonathan Feinberg发布了一款在线词云图工具Wordle,词组布局遵循一定算法,水平或者垂直排列,充分利用空隙,形成内部紧凑、轮廓明显的视觉效果。Wordle实现用户在线输入文本数据,自动统计频数,用户设置字体、布局和配色方案,该网站日志显示每天平均约有1.4万访问量。
Tagxedo也是一个在线词云制作工具,允许定义填充形状,有效丰富了可视化效果。此外标签云和词云图在线工具还有tagCloud、ImageChief、ABCya、Tagul、ToCloud和WordItOut。其中ABCya仅支持英文文本,自动过滤掉非英文字符,不能实现适形填充;WordItOut只提供了横向布局,也不能实现适形填充;Tagul能适形填充,生成标签云,不能添加语义特征;Make Word Masaic能纵横交错适形填充,没有语义特征。这些工具只能在线使用,限制了在软件中集成、可视化的灵活性差,使用范围有限。
清华大学孙茂松团队开发了一个在线“围脖关键词”词云工具,自动抽取关键词,分析微博用户言论并以词云显示,一定程度反映用户兴趣和经历,可以用于微博舆情监控。但其可视化布局的灵活性一般,没有实现任意角度词云。
2.词云图布局算法
Wordle采用随机贪心背包算法布局词组,先按词频降序排序,平方根变换词频和字体大小,对每个词组初设位置,如果与其他词组重叠,则通过增加极坐标半径调整坐标直到不重叠。由于每个词与已布局的所有词比较检测是否重叠,算法复杂度为O(n2),词组数超过百数量级后速度明显变慢,为此他们采用了三个优化技巧:采用层次边界盒子寻找词组边界;采用缓存技术先检测最可能重叠的词组;采用四叉树空间索引进一步减少重叠检测的次数。韩国学者在Wordle词云布局算法的框架下做了一些优化,提供了交互性更强的词云图工具ManiWordle。
此外,Seifert等提出了一个优化的布局算法,实现了从矩形布局到任意多边形布局,以创建更加丰富的词云图。Gambette和Veronis提出了整齐布局的“Tree Cloud”的词云概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410020352.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自动变速器的滑行降档控制装置
- 下一篇:燃油控制方法和装置、以及工程机械