[发明专利]网页正文的自动抽取方法及装置有效
申请号: | 202011098344.2 | 申请日: | 2020-10-14 |
公开(公告)号: | CN112269906B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 李晓戈;秦龙;马鲜艳;穆诤辉;韩保民;颜吏 | 申请(专利权)人: | 西安邮电大学;陕西省科技资源统筹中心 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/951;G06F16/953;G06N3/0464;G06N3/08 |
代理公司: | 北京易捷胜知识产权代理有限公司 11613 | 代理人: | 齐胜杰 |
地址: | 710121 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请属于计算机技术领域,具体涉及一种网页正文的自动抽取方法及装置。其中的方法包括:通过关键字搜索得到目标网站,从目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;通过预先训练的卷积神经网络将网页分为文章网页和列表网页,并将网页数据解析为DOM树;对文章网页,比较同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文;对列表网页,将深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。本申请中的方法可以准确识别网页页面中的正文内容,实现高效、快速的网页正文抽取,从而使系统具有较高的稳定性和鲁棒性。 | ||
搜索关键词: | 网页 正文 自动 抽取 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学;陕西省科技资源统筹中心,未经西安邮电大学;陕西省科技资源统筹中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011098344.2/,转载请声明来源钻瓜专利网。