[发明专利]一种基于社区文本数据的话题发现系统在审
申请号: | 201710115832.1 | 申请日: | 2017-03-01 |
公开(公告)号: | CN106777395A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 熊桂喜;朱宁;何滔;邹哲讷;赵再让 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/00 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社区 文本 数据 话题 发现 系统 | ||
技术领域
本发明涉及一种基于社区文本数据的话题发现系统及方法,属于计算机与网络技术应用领域。
背景技术
随随着城市信息化的快速建设与发展,国民经济长足的进步,在高速城镇化建设中带来了人口管理、城市交通、环境保护以及社会治安等诸多问题,已经阻碍城市发展的脚步。社区的建设是城市建设的基础,提高社区服务质量直接关系到社区居民日常生活的幸福指数。如何让社区居民能真正享受到智慧城市带来的红利,是社区建设的首要任务,所以要充分利用社区产生数据。
深入去了解社区服务的需求,从文本数据层面进行分析,目前有关于文本数据挖掘多为舆情系统或是对当下较流行的微博客进行分析去做关键人物或网民情绪的分析,针对社区内部及城市管理者产生的数据并没有有效利用起来,目前没有相关文献报导。
发明内容
本发明要解决的技术问题:克服现有技术的不足,提供一种基于社区文本数据的话题发现系统及方法,能够提高社区服务水平、符合社区管理特点、易于使用,可以使社区居民,社区服务人员以及城管参与到社区管理中,加快工作效率,实现社区的智慧化管理。
本发明采用的技术方案之一:一种基于社区文本数据的话题发现系统,包括移动终端服务系统和服务器端系统;移动终端服务系统包括社区文本数据上传模块,负责社区文本数据的采集、提取和上传,接收采集的社区文本数据,并提取所述社区文本数据的类型,并将社区文本数据及类型送上传至服务器端系统的数据预处理模块;所述社区文本数据的类型包括TXT格式、HTML格式、XML格式;服务器端系统包括数据预处理模块、向量提取模块、热点话题提取模块、数据可视模块和数据存储与管理模块;
数据预处理模块:读取社区文本数据上传模块上传的社区文本数据,并进行社区文本数据的清洗和中文分词;所述社区文本数据读取针对不同类型的数据采取不同的读取策略,对于TXT格式的社区文本数据采用JAVA中BufferedReader直接读取成数据流形式,对于HTML与XML格式的社区文本数据均采用DOM的解析模式;所述社区文本数据的清洗完成对社区文本数据中有重复上报的进行剔除;所述中文分词是将清洗后社区文本数据切分成由中文单词组成的词特征向量;
向量提取模块:负责对社区文本数据向量化表示;基于中文语料库对数据预处理模块后得到的词特征向量进行训练,提取关键词词组,并计算出关键词权值;结合词特征向量及关键词权值进行加权平均计算得出文本特征向量;所述词特征向量训练采用Word2Vec的JAVA版本,中文语料库采用项目所在地的新闻语料库(此项目中语料库为陕西省新闻与浙江省新闻,也可以为搜狗新闻语料库);提到关键词词组采用TF-IDF特征提取;
热点话题提取模块:基于向量提取模块中得出的关键词词组和文本的特征向量,采用Single-Pass聚类对文本进行聚类,得到类簇后根据向量提取模块中提取到的关键词词组,对关键词词组中的关键词进行统计,统计完成后降序排列,从而生成热点话题;
数据可视模块:为用户交互界面,完成对外的应用和展示任务,把社区文本上传模块中的得到的社区文本数据与热点话题提取模块中得到的热点话题数据展示在页面端;展示的内容包括社区文本数据的数据总量概况、数据分布概况和数据分析后生成的热点话题,热点话题的展示形式采用表格、柱状图、折线图并且结合地图的多种展示形式,直观的显示数据;所述数据整体概况展示数据概况,数据总种类,数据总量以及各个地区、主题的总量;数据分布概况将数据分布情况在地图上展示出来,直观的显示数据地理位置;数据分析概况将处理后生成的热点话题采用报表、图表并结合地图等形式展示给社区管理人员;
数据存储与管理模块,对社区文本数据上传模块中上传的社区文本数据、数据预处理模块、向量提取模块以及热点话题提取模块中产生的相关数据进行存储与管理;社区文本数据上传模块上传的社区文本数据缓存在HDFS文件系统中,向量提取模块中训练的词向量结果缓存于Redis缓存数据库中,数据预处理模块和热点话题提取模块生成的数据缓存在HBase数据库中;对HDFS文件系统、HBase数据库和Redis缓存数据库进行管理,完成其中的数据增加、删除、修改和查询操作;同时支持定时任务对Redis缓存数据库中的缓存数据进行更新,以及维护HBase数据库中的索引表,优化对数据的查询,对HDFS文件系统中文件块的存储进行合并优化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710115832.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集群文件系统
- 下一篇:一种推广信息的投放方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置