[发明专利]一种页面信息提取系统及提取方法在审
申请号: | 201810716173.1 | 申请日: | 2018-07-03 |
公开(公告)号: | CN108932327A | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 宋小俐 | 申请(专利权)人: | 芜湖瑞芬莱网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 241000 安徽省芜湖市鸠江区北京中路*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面信息 提取系统 数据处理领域 网页信息采集 用户体验度 多个网站 感知信息 公告内容 技术手段 匹配信息 数据分析 信息分析 信息提取 页面获取 页面数据 异步访问 用户匹配 用户信息 智能分拣 自动分类 精准度 去重 推送 索引 服务器 过滤 数据库 采集 互联网 保存 | ||
1.一种页面信息提取方法,其特征在于,包括如下步骤:
步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;
步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;
步骤S003信息去重:抽取信息完成后,将重复的信息删除;
步骤S004获取公告内容:通过线程获取公告内容;
步骤S005自动分类:对获取的公告内容进行分类;
步骤S006生成索引:对分类完成的公告内容创建索引;
步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;
步骤S008保存至数据库:将发送的信息保存到系统数据库。
2.根据权利要求1所述的一种页面信息提取方法,其特征在于,所述步骤S002中,页面信息抽取包括以下步骤:
步骤T001页面预处理:通过Java HTML Parser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;
步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;
步骤T003加载页面抽取规格:根据需求加载对应的抽取规则;
步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;
步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;
步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;
步骤T007输出结构化公告信息组:将结果输出成结构化的描述型式以便由网络集成系统进行查询分析。
3.根据权利要求2所述的一种页面信息提取方法,其特征在于,所述步骤T003中,抽取规格通过正则表达式制定。
4.如根据权利要求1-3任意一所述的一种页面信息提取方法的提取系统,包括手机APP、交换机和应用服务器,其特征在于:
所述手机APP通过互联网与交换机无线连接;所述互联网和应用服务器之间设有一安全设备;
所述交换机用于为多个网络节点提供独享的电性通路;
所述应用服务器包括存储模块、消息推送模块、检索模块、日志模块、推荐模块、消息采集模块、分析模块和通信模块;
所述存储模块用于存储采集信息、日志信息和推送信息;
所述检索模块用于用户通过关键字进行全文检索;
所述日志模块用于对用户的操作生成日志;
所述推荐模块用于根据用户的使用习惯,用户查询时优先显示其喜好的信息;
所述消息采集模块用于采集页面信息和推送信息;
所述通信模块用于应用服务器与交换机之间通信连接。
5.根据权利要求4所述的一种页面信息提取方法的提取系统,其特征在于,所述检索模块采用全文检索技术,公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库。
6.根据权利要求4所述的一种页面信息提取方法的提取系统,其特征在于,所述应用服务器为多个;所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器;
其中,所述公告采集服务器、推送信息生成、分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器均匀交换机通信连接;所述手机APP应用服务器通过反向代理或负载均衡服务器与交换机通信连接。
7.根据权利要求6所述的一种页面信息提取方法的提取系统,其特征在于,所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器均统一部署、配置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芜湖瑞芬莱网络科技有限公司,未经芜湖瑞芬莱网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810716173.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实例扩展方法、装置、设备和介质
- 下一篇:一种页面信息更新方法和装置