[发明专利]网页内容萃取系统及方法在审
申请号: | 201510783655.5 | 申请日: | 2015-11-16 |
公开(公告)号: | CN106682048A | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 林明儒;吕欣泽;陈元章;李易安;杨朝钦 | 申请(专利权)人: | 财团法人资讯工业策进会 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 徐金国 |
地址: | 中国台湾台北 *** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种网页内容萃取系统及方法。网页内容萃取系统包含网页结构分析模块、中介数据判断模块、网页关联产生模块及储存路径路由模块。网页结构分析模块依据第一网页符合的网页结构标准将第一网页的网页内容区分成多个中介数据及多个一般数据。中介数据判断模块依据用户设定条件将所述中介数据区分成多个目标中介数据及多个非目标中介数据。所述目标中介数据对应于第二网页。网页关联产生模块产生第一网页与第二网页之间的关联程度信息。储存路径路由模块依据关联程度信息将第二网页的网页内容路由至第一储存路径或第二储存路径,并将一般数据路由至第一储存路径。如此,只有符合使用者需求的网页内容被萃取出来,达到节省时间及节省储存空间的功效。 | ||
搜索关键词: | 网页 内容 萃取 系统 方法 | ||
【主权项】:
一种网页内容萃取系统,其特征在于,包含:一网页结构分析模块,用以依据一第一网页所符合的一网页结构标准将所述第一网页的网页内容区分成多个中介数据及多个一般数据;一中介数据判断模块,用以依据一用户设定条件将所述中介数据区分成多个目标中介数据及多个非目标中介数据,所述目标中介数据对应于一第二网页;一网页关联产生模块,用以产生所述第一网页与所述第二网页之间的一关联程度信息;以及一储存路径路由模块,用以依据所述关联程度信息将所述第二网页的网页内容路由至一第一储存路径或一第二储存路径,并将所述一般数据路由至所述第一储存路径。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人资讯工业策进会,未经财团法人资讯工业策进会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510783655.5/,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法