[发明专利]一种获取网页正文内容的方法和相关装置在审
申请号: | 201910218401.7 | 申请日: | 2019-03-21 |
公开(公告)号: | CN110309392A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 王泽龙 | 申请(专利权)人: | 广州国音智能科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9536;G06K9/32;G06K9/46;G06Q50/00 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 510000 广东省广州市黄埔*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页正文内容 图像区域 网页截图 网页正文 相关装置 网站 边缘检测算法 获取目标 文本形式 采集器 预置 申请 网页 转换 | ||
1.一种获取网页正文内容的方法,其特征在于,包括:
获取目标网页的网页截图;
根据预置的边缘检测算法确定所述网页截图中的各个区域的轮廓;
根据所述各个区域的轮廓确定网页正文区域;
将所述网页正文区域转换为文本形式的网页正文内容。
2.根据权利要求1所述的方法,其特征在于,获取目标网页的网页截图包括:
根据预置的所述目标网页的统一资源定位符爬取目标网页的相关参数,所述相关参数包括源码和样式;
根据所述相关参数生成所述目标网页的模拟网页;
截取所述模拟网页的图像作为所述目标网页的网页截图。
3.根据权利要求1所述的方法,其特征在于,根据所述各个区域的轮廓确定网页正文区域包括:
根据所述轮廓确定各个图像区域在所述网页截图中的位置;
判断各个图像区域的位置是否在预置的目标位置范围内;
将位置在所述目标位置范围内的图像区域确定为网页正文图像区域。
4.根据权利要求1所述的方法,其特征在于,根据所述轮廓从所述各个图像区域中确定网页正文图像区域包括:
根据所述轮廓确定各个图像区域的面积;
将面积最大的图像区域确定为网页正文图像区域。
5.根据权利要求1所述的方法,其特征在于,将所述网页正文图像区域转换为文本形式的网页正文内容包括:
通过图像识别技术对所述网页正文图像区域进行处理,并确定组成所述网页正文图像区域的各个图像子区域;
将各个图像子区域域转换为文本形式的内容。
6.根据权利要求1所述的方法,其特征在于,所述边缘检测算法为灰度梯度算法。
7.一种获取网页正文内容的装置,其特征在于,包括:
获取单元,用于获取目标网页的网页截图;
轮廓确定单元,用于根据预置的边缘检测算法确定组成所述网页截图的各个图像区域的轮廓;
网页正文图像区域确定单元,用于根据所述轮廓从所述各个图像区域中确定网页正文图像区域;
转换单元,用于将所述网页正文图像区域转换为文本形式的网页正文内容。
8.根据权利要求7所述的装置,其特征在于,所述获取单元包括:
爬取子单元,用于根据预置的所述目标网页的统一资源定位符爬取目标网页的相关参数,所述相关参数包括源码和样式;
模拟子单元,用于根据所述相关参数生成所述目标网页的模拟网页;
截取子单元,用于截取所述模拟网页的图像作为所述目标网页的网页截图。
9.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-6任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州国音智能科技有限公司,未经广州国音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910218401.7/1.html,转载请声明来源钻瓜专利网。