[发明专利]一种基于压缩感知理论的文本数据流抽样方法有效
申请号: | 201510024381.1 | 申请日: | 2015-01-16 |
公开(公告)号: | CN104504156B | 公开(公告)日: | 2017-07-11 |
发明(设计)人: | 彭敏 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 薛玲 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 压缩 感知 理论 文本 数据流 抽样 方法 | ||
技术领域
本发明属于互联网大数据文本检索领域,涉及一种文本压缩和抽样技术,具体涉及一种基于压缩感知理论的大规模文本数据流抽样方法。
背景技术
随着社交媒体的发展,越来越多的人喜欢分享最新的新闻热点问题或对产品进行评论。这些诸如Twitter、Facebook、Blogger和亚马逊等社交媒体或者电商网站的用户产生的内容(UGC)形成了大规模的文本数据流。例如,超过80%的新浪微博用户参与2014巴西世界杯的话题讨论、超过76%的用户在他们观看比赛直播时发布微博。截至2011年1月,在YouTube上搜索奥巴马就职典礼就有超过30000个视频。2010年在YouTube上U2演唱会的直播在Twitter上产生了超过130000的帖子。UGC能够以数据流的形式被连续收集,并且在各个领域也有广泛的应用,如科学研究、系统管理、客户调查、舆情分析等等。这些应用通常可以抽象成各类以文本为核心的信息挖掘任务,例如不断面向Twitter文本流,可以挖掘高质量的文本集或重要频繁模式,以及检测大规模数据流出现的新文档或新主题。
然而,使用UGC文本流做挖掘任务存在两个重要的挑战:1)如何管理和储存大量动态文本流,使之更有效的计算?2)在以文本为中心的挖掘任务中,例如主题探测或用户兴趣分析,是否需要使用的所有文本流?也就是说,是否所有的文本流在挖掘任务同等重要?
事实上,在信息检索或新主题探测等以文本为中心的挖掘任务中,一方面,对于一个给定的计算量,减少其所需的机器或者磁盘数量可以节省计算资源消耗的成本。此外,减少数据规模能够让更多的数据存储在内存中,从而提高计算效率;另一方面,UGC文本通常与各种现实世界的事件相关,对于特定分析目标,这些UGC文本中的一些可能包含有趣和有用的信息,而另一些则价值很小。根据研究,近36%的tweets值得一读,其余tweets的可读性一般甚至较差。也就是说,不同文本的内容质量有很大的不同,因此,从大规模文本流中识别出高质量的文本流,对于提高以文本为核心的挖掘任务的准确性和效率至关重要。此外,从时序分析来看,历史数据通常比新到达的数据价值小。因此,根据文本内容的质量和新鲜度对文本加以区分至关重要,一般将内容质量高和新鲜度高的文本称为有价值的文本。
社交媒体和电子商务的普及使得在线用户原创内容文本UGC,如微博、博客和产品评论等,持续和快速地增长。这些大规模文本具有海量、暂时有序、快速变化和潜在无限的特点。如何使用更少的内存消耗、更快的计算时间,来处理不断增加的文本流,是互联网大数据文本检索领域的迫切需要解决的问题。
发明内容
为了解决上述的技术问题,本发明面向互联网海量的、不断增加的文本流,提出了一种基于压缩感知理论的文本数据流抽样方法,通过更少的存储消耗来实现更快的文本流抽样和存储,在大大降低抽样文本流规模的情况下,确保能够以全局视角获得整个文本流中最有价值的那部分信息。
本发明所采用的技术方案是:一种基于压缩感知理论的文本数据流抽样方法,其特征在于,包括以下步骤:
步骤1:将文本数据流分割成固定大小的文本片段并通过向量空间模型表示成矩阵;
步骤2:使用压缩感知理论对文本数据流进行空间降维抽样;
步骤3:计算降维后每个文本的信息熵;
步骤4:基于文本的信息熵通过对数倾斜时间(LTT)模型压缩存储抽样文本。
作为优选,步骤1中所述的固定大小的文本片段由TF或TF-IDF模型表示成矩阵其中P表示固定大小文本片段中文本的数量,n为向量空间的维数,L是当前文本数据流片段的数量。
作为优选,步骤2的具体实现过程是,对于给定的文本片段使用高斯随机矩阵作为测量矩阵Ф,使用压缩理论中的公式对Xl进行投影得到测量值实现空间降维,其中m≤n,计算如公式1所示:
Yl=ΦXl(公式1)。
作为优选,步骤3的具体实现过程是,对于降维后每个文本,第l个文本片段中的第i个文本的内容质量由信息熵E(i,l)来衡量,其计算如公式2所示:
E(i,l)=-Σp(tj,l)logp(tj,l)(公式2);
其中p(tj,l)是第i个文本中第j项在第l个片段中出现的频率,tj,l∈Yii。
作为优选,步骤4的具体实现包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510024381.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:大型集装箱起重机快速配置设计方法
- 下一篇:一种数据聚合查询的方法及装置