[发明专利]一种面向大数据的分布式主题发现方法及系统有效
申请号: | 201310526790.2 | 申请日: | 2013-10-30 |
公开(公告)号: | CN103593418B | 公开(公告)日: | 2017-03-29 |
发明(设计)人: | 吴新宇;何清;庄福振;敖翔 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 祁建国,梁挥 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 分布式 主题 发现 方法 系统 | ||
技术领域
本发明涉及互联网行业、新闻传媒行业、Web大数据分析行业,尤其涉及一种面向大数据的分布式主题发现方法及系统。
背景技术
主题发现的主要任务是把大量讨论同一事件或相关话题的新闻报道聚合在同一个簇下,以减少重复和冗余。对政府和电信运营商而言,海量新闻和评论主题发现技术可以帮助他们更快更实时地了解社情民意。按照处理过程,主题发现可以分为以下几个步骤:事件相关网页爬取、网页文本解析、文本内容分词、生成词典、文本建模、文本单路径增量聚类。事件相关网页爬取是将和当前热点事件相关的互联网原始信息(如网页新闻、BBS帖子以及网友评论)利用爬虫工具抓取下来;网络文本解析即把爬取下来的原始网页进行包含剔除网页标签、提取正文和必要信息(如来源、作者、发表时间等)等操作的清洗;文本内容分词是将内容分解为一个个可以被计算机识别的汉语词语,以便后序的相应操作;生成词典则是根据分词结果,进行去重排序后,生成序号和单词的键值对词典。文本建模依据分词后的词频统计值将文本表示为一组关键词及以其词频为权重的特征向量;文本单路径增量聚类是计算文本向量之间的距离或者相似程度,以确定两个文本是否同属一个话题,并且根据一种打分机制,寻找到多个能代表某一个话题的主题关键词。采集和处理为聚类提供数据来源,是基础;分词和建模是必要的转换以使后面的步骤得以进行;聚类是话题发现的核心,聚类方法过程的效率和精度关系到主题发现的有效性。
更具体地,主题发现常用的核心方法过程单路径增量聚类方法过程依次处理输入的互联网文本(在这之前已经经过建模处理),一次一篇,以增量的方式进行动态聚类,将文本向量与已有话题内的报道进行比较,根据相似度度量进行匹配。如果与某个话题模型匹配,则把文本归入该话题,如果该文本和所有话题模型的相似度度量均小于某一阈值,则将该文本表示为一个新的话题种子,创建新话题。不同的阈值设置可以得到不同粒度大小的话题,阈值区间一般为[0,1]。
单路径增量聚类方法过程到目前为止是主题发现流程使用最为频繁的方法过程,相比PLSA系列方法过程而言,单路径方法过程执行效率较高,方法过程思想简洁清晰,易于理解。但是传统单路径方法过程也面临着严重依赖文档输入顺序,处理数据量有限,以及聚类结果代表关键词打分机制不完善等问题。处理数据量有限的问题主要是由于传统单路径方法过程不能实现并行机制造成的,单机处理数据量受到内存和存储等硬件条件的严重制约。此外,传统的单路径方法过程得出每类关键词一般基于本类词频排序以及文档频率排序,但这样的策略容易使单篇具有较高词频的关键词或者多篇低频的关键词得分过高,不能很好地反映本类实际主题。目前急需一种改进的单路径方法过程能实时处理海量网页文本,快速准确地聚合主题,反映社情民意。
发明专利“基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法”属于网络多媒体信息处理领域。在视频分享网站高噪声、主题数目不易确定的环境下,解决视频主题发现的技术问题。本发明主要利用视频分享网站上视频间链接关系来帮助视频主题的发现,包括利用抓取相关视频信息来调整视频BOW模型参数,进行文本信息增强;使用基于关键词的图模型进行主题聚合;以及利用视频与视频间回复关系暗示主题相似性的假设进行结果修正三大步骤。该方法可以在没有任何先验知识的前提下,自动的发现大量网络视频的主题结构,并对单个视频的主题进行有效的归纳,其效果较之常见的数种方法都有明显的进步。该发明目的是视频主题发现,并非以网页为主的海量文本主题发现;该发明使用图模型的技术方案,并不使用并行单路径增量聚类的技术方案;该发明不是在分布式编程框架和分布式文件系统中实现。
发明专利“基于分布式多级聚类的话题检测装置及方法”公开了一种基于分布式多级聚类的话题检测装置及方法,该装置主要包括新闻采集模块、新闻分类模块、话题检测模块和话题整合模块以及话题展示模块;该方法包括:题检测方法,其特征在于,该方法包括:A、对新闻进行采集的步骤;B、对所述新采集的新闻进行分类的步骤;C、对各频道并行地进行多级聚类的步骤;D、计算所有话题的热度,筛选出全系统内的热点话题和每个频道内的热点话题。采用本发明,能够解决在互联网环境中大量文档快速更新的条件下,话题检测面临的检测效果与时间开销的尖锐矛盾。该发明主要关注新闻话题检测,并不适用于所有内容(除中英文外,依赖于具体分词工具)的海量文本文件主题发现;该发明是流程性质的系统,包含从网页采集到处理的多个模块。并没有注重于方法过程的改进;该发明不是在分布式编程框架和分布式文件系统中实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310526790.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带三次节流及减振功能的空调双向节流阀
- 下一篇:一种双工位钻床
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置