[发明专利]一种页面信息提取系统及提取方法在审
申请号: | 201810716173.1 | 申请日: | 2018-07-03 |
公开(公告)号: | CN108932327A | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 宋小俐 | 申请(专利权)人: | 芜湖瑞芬莱网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 241000 安徽省芜湖市鸠江区北京中路*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种页面信息提取系统及提取方法,涉及数据处理领域。本发明的一种页面信息提取方法包括如下步骤:步骤S001:页面获取;步骤S002:信息提取;步骤S003:信息去重;步骤S004:获取公告内容;步骤S005:自动分类;步骤S006:生成索引;步骤S007:信息分析提取;步骤S008:保存至数据库。本发明通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,提高了网页信息采集速度以及精准度,极大的增加了用户体验度。 | ||
搜索关键词: | 页面信息 提取系统 数据处理领域 网页信息采集 用户体验度 多个网站 感知信息 公告内容 技术手段 匹配信息 数据分析 信息分析 信息提取 页面获取 页面数据 异步访问 用户匹配 用户信息 智能分拣 自动分类 精准度 去重 推送 索引 服务器 过滤 数据库 采集 互联网 保存 | ||
【主权项】:
1.一种页面信息提取方法,其特征在于,包括如下步骤:步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;步骤S003信息去重:抽取信息完成后,将重复的信息删除;步骤S004获取公告内容:通过线程获取公告内容;步骤S005自动分类:对获取的公告内容进行分类;步骤S006生成索引:对分类完成的公告内容创建索引;步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;步骤S008保存至数据库:将发送的信息保存到系统数据库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芜湖瑞芬莱网络科技有限公司,未经芜湖瑞芬莱网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810716173.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种实例扩展方法、装置、设备和介质
- 下一篇:一种页面信息更新方法和装置