[发明专利]一种基于占用矩阵的词云图可视化方法有效

专利信息
申请号: 201410020352.3 申请日: 2014-01-16
公开(公告)号: CN103778213B 公开(公告)日: 2017-02-15
发明(设计)人: 刘连忠;李春芳;徐同阁;陈梦东;唐文忠 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100091*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 占用 矩阵 云图 可视化 方法
【说明书】:

技术领域

发明属于数据挖掘和数据可视化领域,涉及一种词云图可视化方法,具体设计了一组基于占用矩阵的任意形状、任意角度、无重叠、字模提取、具有语义分类的词云图可视化算法。

背景技术

词云图(Word Cloud)是一种富信息文本可视化技术,通过布局算法用文字大小表示词频,辅以多种色彩显示,直观反映词组重要性差异,展示文本关键摘要信息。近年来,词云图作为极富表现力的可视化载体,广泛应用于网站导航、社会化标签呈现、Web文本分析以及各种文本挖掘和可视化场景。

词云图起源于标签云。标签云(Tag clouds),早在1997年已被作为网站可视化导航手段,用字体大小表示标签频数,文字逐行水平排列。2002年,照片分享网站Flickr用标签云表示标签流行程度。随后,网络书签应用del.icio.us也采用它标注用户的大量社会化标签。此后,大量网站使用标签云,导航离散的分类信息,点击标签链接进入相应的内容页面,统计易用性使它成为Web2.0时代的显著标志之一。近年,通过用户输入创建标签云的专业网站出现,包括TagCrowd、Tag Cloud Generator以及IBM的可视化分享网站Many Eyes。

标签云在布局复杂美观以及应用的延伸,逐渐演变发展了另一种独立的文本可视化技术——词云图。词云图通过色彩和布局增强了标签云的视觉效果,帮助人们简明扼要地了解文本的大体内容,实际上是一种离散的自动摘要生成和可视化工具。图1是标签云和词云图布局比较。标签云目前主要用于网站导航,而词云图用于各种文本可视化,但在某些情况下有相互指代之意,如维基百科中“Word Cloud”词条直接指向了“Tag Cloud”,在百度搜索结果中也反映了两词相互指代的特点。

1.国内外词云图应用

沟通性和解说性是可视化的优势,特别用于向非专家用户描述一些专业抽象的信息。2008年美国总统大选期间,大量新闻报道采用词云图对比民主、共和两党候选人演讲用词,这一全新的文本可视化有效宣传了竞选核心理念。2013年我国“两会”期间,清华大学自然语言处理与社会人文计算实验室利用词云图对“两会”报告形象解读,产生了很强的社会反响,见图2所示。词云图的个人应用包括博客、微博、诗歌和歌词等文本统计和可视化。

2008年6月,美国可视化学者Jonathan Feinberg发布了一款在线词云图工具Wordle,词组布局遵循一定算法,水平或者垂直排列,充分利用空隙,形成内部紧凑、轮廓明显的视觉效果。Wordle实现用户在线输入文本数据,自动统计频数,用户设置字体、布局和配色方案,该网站日志显示每天平均约有1.4万访问量。

Tagxedo也是一个在线词云制作工具,允许定义填充形状,有效丰富了可视化效果。此外标签云和词云图在线工具还有tagCloud、ImageChief、ABCya、Tagul、ToCloud和WordItOut。其中ABCya仅支持英文文本,自动过滤掉非英文字符,不能实现适形填充;WordItOut只提供了横向布局,也不能实现适形填充;Tagul能适形填充,生成标签云,不能添加语义特征;Make Word Masaic能纵横交错适形填充,没有语义特征。这些工具只能在线使用,限制了在软件中集成、可视化的灵活性差,使用范围有限。

清华大学孙茂松团队开发了一个在线“围脖关键词”词云工具,自动抽取关键词,分析微博用户言论并以词云显示,一定程度反映用户兴趣和经历,可以用于微博舆情监控。但其可视化布局的灵活性一般,没有实现任意角度词云。

2.词云图布局算法

Wordle采用随机贪心背包算法布局词组,先按词频降序排序,平方根变换词频和字体大小,对每个词组初设位置,如果与其他词组重叠,则通过增加极坐标半径调整坐标直到不重叠。由于每个词与已布局的所有词比较检测是否重叠,算法复杂度为O(n2),词组数超过百数量级后速度明显变慢,为此他们采用了三个优化技巧:采用层次边界盒子寻找词组边界;采用缓存技术先检测最可能重叠的词组;采用四叉树空间索引进一步减少重叠检测的次数。韩国学者在Wordle词云布局算法的框架下做了一些优化,提供了交互性更强的词云图工具ManiWordle。

此外,Seifert等提出了一个优化的布局算法,实现了从矩形布局到任意多边形布局,以创建更加丰富的词云图。Gambette和Veronis提出了整齐布局的“Tree Cloud”的词云概念。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410020352.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top