[发明专利]一种网页要素的自动提取方法、系统及计算机存储介质在审

申请号：	201811341252.5	申请日：	2018-11-12
公开（公告）号：	CN109657117A	公开（公告）日：	2019-04-19
发明（设计）人：	朱振水;栾江霞;章正道;许剑锋;林志扬	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955
代理公司：	厦门福贝知识产权代理事务所(普通合伙) 35235	代理人：	郝学江
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种网页要素的自动提取方法、系统及计算机存储介质，该方法包括：基于浏览器插件提取所述网页的URL，获取爬虫采集规则库和网站版块集合；判断所述网站版块集合在爬虫采集规则库中是否存在提取规则，如果所述爬虫采集规则库中存在所述网站版块集合的提取规则，则提取所述网页的要素；判断所述网页的要素是否提取成功，如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。根据本发明的方法、系统及计算机存储介质，可以增加提取网页要素以及截图的准确性、灵活性、易用性，为信息编辑人员查阅收集网页信息提供很好的技术支持。
搜索关键词：	网页计算机存储介质爬虫采集规则版块网站集合提取规则自动提取浏览器插件技术支持内容填充网页信息文本区域信息编辑要素提取易用性成功
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种网页要素的自动提取方法，其特征在于，所述方法包括：基于浏览器插件提取所述网页的URL，获取爬虫采集规则库和网站版块集合；判断所述网站版块集合在爬虫采集规则库中是否存在提取规则，如果所述爬虫采集规则库中存在所述网站版块集合的提取规则，则提取所述网页的要素；如果所述爬虫采集规则库中不存在所述网站版块集合的提取规则，则根据用户选中指定区域的信息内容标示为网页要素，并形成对应的提取规则；和/或，运维处理人员在运维处理中对失败的提取规则进行二次处理；判断所述网页的要素是否提取成功，如果所述网页的要素提取成功则将提取的内容填充到对应的文本区域。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司，未经厦门市美亚柏科信息股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811341252.5/，转载请声明来源钻瓜专利网。

上一篇：一种舆情搜索方法、搜索装置、存储介质和终端设备
下一篇：一种分布式网络爬虫的URL去重方法及其系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网页要素的自动提取方法、系统及计算机存储介质在审

专利文献下载