[发明专利]基于聚焦爬虫技术的行业分析方法及系统在审
申请号: | 201810088951.7 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108334591A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 薛文芳;韩艳超;张德馨;郑浩楠;薛金鸽 | 申请(专利权)人: | 天津中科智能识别产业技术研究院有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q40/06 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300465 天津市滨海新区天津经济技*** | 国省代码: | 天津;12 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开基于聚焦爬虫技术的行业分析方法及系统。该方法是利用聚焦网络爬虫技术对目标网站进行信息抓取,获得目标行业的结构化以及非结构化的数据信息;对抓取下来的数据信息进行页面信息解析、数据清洗和内容提取,对重复信息进行去重,并进行文本分词、特征提取以及关键词提取,分离出有用信息;使用文本分类和聚类算法,从有用信息中提取目标信息,形成行业的主题数据集;通过文档和\或图表的方式,将各个主题数据集中的内容进行信息多维可视化展现,形成行业分析报告。本发明可以辅助行业分析师监测行业所处的政策和经济环境、竞争对手的动态以及发现成长快的企业,并对产业集中度、市场规模、增长速度、发展趋势进行分析。 | ||
搜索关键词: | 行业分析 聚焦爬虫 数据信息 抓取 关键词提取 主题数据集 非结构化 经济环境 竞争对手 聚焦网络 聚类算法 目标网站 目标信息 目标行业 内容提取 爬虫技术 市场规模 数据清洗 特征提取 文本分词 文本分类 信息抓取 页面信息 重复信息 主题数据 集中度 结构化 可视化 多维 去重 文档 解析 监测 分析 发现 政策 | ||
【主权项】:
1.基于聚焦爬虫技术的行业分析方法,其特征在于,包括以下步骤:利用聚焦网络爬虫技术对目标网站进行信息抓取,获得目标行业的结构化以及非结构化的数据信息;对抓取下来的数据信息进行页面信息解析、数据清洗和内容提取,对重复信息进行去重,并进行文本分词、特征提取以及关键词提取,分离出有用信息;使用文本分类和聚类算法,从有用信息中提取目标信息,分别形成包含行业法规政策主题、行业发展态势主题,行业发展环境主题、行业发展水平主题、行业市场容量主题、行业技术现状主题、行业进入退出障碍主题、行业生命周期主题、行业竞争格局主题、行业产能分布地图主题的主题数据集;通过文档和\或图表的方式,将各个主题数据集中的内容进行信息多维可视化展现,形成行业分析报告。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津中科智能识别产业技术研究院有限公司,未经天津中科智能识别产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810088951.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种信息检索系统
- 下一篇:一种基于内容与协同过滤相结合的个性化推荐方法