[发明专利]一种面向时序文献数据分析的方法及装置有效
申请号: | 201910616984.9 | 申请日: | 2019-07-09 |
公开(公告)号: | CN110309291B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 刘红军;胡宁;管荑;耿玉杰;王燕;马强;孙名妤;刘勇;刘森涛;林琳;谢芸 | 申请(专利权)人: | 国网山东省电力公司;国网山东省电力公司东营供电公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/34;G06F16/387 |
代理公司: | 北京嘉途睿知识产权代理事务所(普通合伙) 11793 | 代理人: | 彭成 |
地址: | 250001 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 时序 文献 数据 分析 方法 装置 | ||
本发明的目的是提供一种面向时序文献数据分析的方法及装置,将根据检索结果获得的文献数据以n列1行的集合进行记录,其中,所记录的文献数据集合定义为S,并且R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同事定义R:={year,title,keywords,abstract,text}。本发明突破了传统文字云可视化技术无法呈现文本单词时序特征的局限性,通过计算结果文献的时间跨度;初始化忽略单词集合和合并单词集合;提取文本单词时序特征,生成文本单词时序特征序列;返回文本单词时序特征序列,随后使用HTML5中的Canvas可视化技术对文本单词序列进行布局;获取Canvas中每个单词对应的坐标,使用HTML5的SVG可视化技术绘制最终文字云的可视化效果;在SVG图中,在每个文本单词下端,在对应Canvas图中等长且固定比例线段的位置,编码绘制文本单词对应的时序特征等步骤实现云文字可视化。
技术领域
本发明属于文献数据分析技术领域,基于时序文献数据分析理论,对时序文献数据进行分析处理,探索潜藏在文献数据中研究热点的时序特征,采用嵌入式的可视化方法进行呈现。
背景技术
文献数据分析是研究人员进行研究工作前必须要作的一项重要任务,特别是对特定领域研究热点的准确分析是研究工作顺利进行的保障。文献数据中研究热点的分析挖掘一直是一个重要的研究方法,其中对文献数据中研究热点的时序特征分析结果更是反应研究趋势的重要数据依据。文献数据中研究热点的时序特征主要包括四种模式,分别是:新兴热点、热点消失、一直流行和反复兴起,这四种模式虽然可以通过特征分析的方法进行识别,但是通过可视化的方法对时序特征进行呈现,更符合人类的认知思维,更能在主观上让研究人员准确把握研究热点的变化趋势。
目前,文献数据分析主要借助文献计量学的相关理论,结合文献数据中的常用变量,如:题目、作者、引用、关键词等,实现文献数据的热点分析,这种分析方法适用于对文献数据的统计分析需求,没有涉及文献摘要或是正文的文本数据,而文献的摘要或是正文数据分析更能准确的对热点进行反馈。传统的文字云可视化技术,通过对文本数据的分词统计,按文本单词出现频次排序筛选后,按文本单词结合出现频次数据在可视界面中绘制出来,能有效的反应研究热点在一定时间段内的热度,弥补文献计量学分析方法的不足。而传统的文字云可视化技术的不足之处在于,其可视化方法不能表达文本单词按时间粒度变化的趋势。
本发明提出了一种嵌入式的文字云分析及可视化技术,通过将文本单词的词频特征嵌入到文本下端的可视编码方式,结合一种重叠检测算法,有效避免了可视结果的重叠情况,实现了文本单词时序特征的可视化。并且本发明所提出的方法能够兼顾文献的摘要以及正文所记载的单词,同时,能够更新单词集合中的单词,以明确技术研究热点变化,并且能够根据相关权重对单词进行选取后进行部分单词的可视化处理,能够节约系统资源。
发明内容
本发明的目的是通过以下技术方案实现的。
本发明的目的是提供一种面向时序文献数据分析的方法及装置,解决了现有技术中存在的问题。本发明突破了传统文字云可视化技术无法呈现文本单词时序特征的局限性,通过将文本单词时序特征按时间粒度聚集并嵌入到文本下端的可视编码方法,结合重叠检测算法,实现了文本单词时序特征的可视化。
本发明提出一种面向时序文献数据分析的方法,具体地,将根据检索结果获得的文献数据以n列1行的集合进行记录,其中,所记录的文献数据集合定义为S,并且R为S中一条数据记录,即S:={R1,R2,…,Rn},n是S的长度,同事定义R:={year,title,keywords,abstract,text},依据上述集合S执行如下步骤:
步骤1:计算结果文献的时间跨度;
步骤2:初始化忽略单词集合和合并单词集合;
步骤3:提取文本单词时序特征,生成文本单词时序特征序列W;
步骤4:返回文本单词时序特征序列W。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司;国网山东省电力公司东营供电公司,未经国网山东省电力公司;国网山东省电力公司东营供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910616984.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置