[发明专利]离散数据采集分析系统及方法在审
申请号: | 201811045808.6 | 申请日: | 2018-09-07 |
公开(公告)号: | CN109241432A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 杨率;付乐爽 | 申请(专利权)人: | 云南东巴文信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/215;G06F16/28;G06F16/248 |
代理公司: | 昆明祥和知识产权代理有限公司 53114 | 代理人: | 马汝兰 |
地址: | 650000 云南省昆明市*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种离散数据采集分析系统及方法,包括:数据采集模块用于实时多维度地采集离散的数据,数据包括网页媒体文本数据、网络爬虫抓取的互联网数据、Hadoop数据、服务器运行日志数据及可以接入其他业务系统的数据;数据分析模块用于对采集到的该些数据进行数据解析和数据清洗;数据存储模块用于通过倒排索引方式存储经数据清洗后的数据,并建立数据中分词与所处文档之间的映射关系;数据检索模块用于对输入的检索词进行分析,提取关键词,并从数据存储模块中抓取出检索词对应的目标数据;数据可视化模块用于根据检索词对目标数据进行打分排序,以拓扑图展现数据相关性。本发明数据采集渠道多,检索更高效更精确。 | ||
搜索关键词: | 检索词 采集分析系统 数据存储模块 离散数据 目标数据 数据清洗 采集 抓取 数据采集模块 数据分析模块 数据检索模块 服务器运行 互联网数据 数据可视化 数据相关性 倒排索引 媒体文本 日志数据 数据包括 数据采集 数据解析 网络爬虫 业务系统 映射关系 多维度 拓扑图 分词 文档 排序 检索 存储 取出 网页 渠道 分析 | ||
【主权项】:
1.一种离散数据采集分析系统,其特征在于,其包括一数据采集模块、一数据分析模块、一数据存储模块、一数据检索模块和一数据可视化模块;所述数据采集模块用于实时多维度地采集离散的数据,所述数据包括网页媒体文本数据、网络爬虫抓取的互联网数据、Hadoop数据、服务器运行日志数据以及可以接入其他业务系统的数据;所述数据分析模块用于对采集到的该些数据进行数据解析和数据清洗;所述数据存储模块用于通过倒排索引方式存储经数据清洗后的数据,并建立数据中分词与所处文档之间的映射关系;所述数据检索模块用于对输入的检索词进行分析,提取关键词,并从数据存储模块中抓取出检索词对应的目标数据;所述数据可视化模块用于根据检索词对目标数据进行打分排序,以拓扑图展现数据相关性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南东巴文信息技术有限公司,未经云南东巴文信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811045808.6/,转载请声明来源钻瓜专利网。