[发明专利]一种基于占用矩阵的词云图可视化方法有效

专利信息
申请号: 201410020352.3 申请日: 2014-01-16
公开(公告)号: CN103778213B 公开(公告)日: 2017-02-15
发明(设计)人: 刘连忠;李春芳;徐同阁;陈梦东;唐文忠 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100091*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 字号表示词频可视化文本概要的词云图,以初筛选和归纳性显著提高海量非结构数据使用效率。重叠检测是词云可视化难点,现有算法词组两两比较去重叠,时间复杂度高,速度慢。本发明提出一组基于占用矩阵的词云图可视化方法,包括纵横交错词云、任意角度词云和基于占用矩形的词云。采用占用矩阵、边线检测、随机位置、旋转画布和坐标变换技术,将逐一比较转化为一次计算,复杂度降低,解决任意角度重叠。输入为具有一定格式的文本统计数据,输出为可适形、横向、纵横交错、任意角度、字模提取、近大远小、带分类标签具有随机性的组合布局词云,宏观展示文本重点,直观比较数据差异,可广泛应用于文本挖掘和可视化领域。
搜索关键词: 一种 基于 占用 矩阵 云图 可视化 方法
【主权项】:
一种词云图可视化方法,其特征在于,包括如下步骤:步骤一:对于已排序的词组和词频,计算可视区域面积,对词频做规格化处理,词频表示字号,使所有词组、词频和词组字数表示的总面积小于可视区域面积;步骤二:设置一个以可视区域的宽W和高H为尺寸的矩阵M,称为占用矩阵,M=[H*W],将其所有元素置为0,表示未被占用;步骤三:将最大词频的词组布局在可视区中间,其所占用的M矩阵中的子矩阵元素置为1,表示该区域已占用;步骤四:为下一个词组按照极坐标分配布局位置,如果词组不在可视区内先移动到可视区,通过矩形边线检测是否该区域被占用,即不重叠,如果重叠则为该词组随机分配布局位置,继续检测是否重叠,直至不重叠;步骤五:检测是否可以旋转。将该词组垂直90度旋转后,检测是否与已布局词组重叠,不重叠则可以旋转,随机选择部分旋转,不能旋转或未选中保持原位置;步骤六:检测是否可以向中心靠近,垂直和水平方向同时向可视区中心移动一定步长,不重叠则继续移动,重叠后停止,撤回最后一次移动;逐像素检测垂直和水平单方向是否能靠近中心,能则移动直到重叠为止;步骤七:在可视区域打印该词组,并将其所占用的矩形区域的子矩阵置为1,表示已占用,转步骤四循环,直至所有词组布局完成;调整占用子矩阵的边界参数控制行间距;步骤八:对于词组内部造成的空隙,采用字模提取技术,字模像素与占用矩形区像素重叠才将占用矩阵对应元素置为1;步骤九:对于词组字数差异造成内部缝隙时,布局一定比例词组后,采用极坐标检测占用矩阵内剩余空白圆形区并存储其位置、半径和与中心的距离,按照与中心距离升序排序。对后续的词组布局时,从距离中心最近的空白区开始尝试,再检测是否重叠和是否可以旋转,如果所有空白区都重叠,则随机生成该词组坐标;步骤十:如果提前用已知的二值图形初始化占用矩阵M,可以填充生成任意图形的词云图;步骤十一:在以上步骤基础上设计了任意角度旋转词云图。随机生成词组左下角基线坐标和随机旋转角度α,检测词组旋转后四角坐标是否超出可视区,超出可视区再次随机生成基线坐标和旋转角度,检测旋转后四边是否与已布局词组重叠,重叠则重新生成基线坐标和旋转角度,如果不是第一个词组,则检测是否可以向第一个词组中心移动,不重叠则移动,同样采用纵横双向快速移动和纵横单向逐像素移动,重叠后停止。按照旋转角度α旋转画布,打印词组后旋转画布‑α角度;步骤十二:如果预先对词组添加分类标签,可以用色彩、字体和旋转角度标注不同分类的词组,生成多重语义词云图;步骤十三:一种基于迭代计算占用矩形的词云布局算法,通过将第一个词组布局在可视区中央,迭代计算其左上、左下、右下和右上剩余的矩形区域坐标和面积,按面积排序,对后续词组布局时,从面积最小的区域开始尝试,布局后计算新增加的2个矩形区域,将其中1个存储在所占用的矩形存储单元,只需新增1个存储单元,再次按照面积排序,迭代布局后续词组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410020352.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top