[发明专利]基于DOM树和行列分割的Web内容信息提取方法在审

申请号：	202110258347.6	申请日：	2021-03-09
公开（公告）号：	CN113158626A	公开（公告）日：	2021-07-23
发明（设计）人：	陈壮;葛斌;刘威;蔡威林;邰悦;李涵;张延;张宁	申请（专利权）人：	安徽理工大学
主分类号：	G06F40/14	分类号：	G06F40/14;G06F40/154;G06K9/00;G06K9/34;G06K9/40
代理公司：	暂无信息	代理人：	暂无信息
地址：	232001 安徽***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于DOM树和行列分割的Web内容信息提取方法，包括：视觉特征去噪；正则表达式去噪；生成一个新的网页视觉树；识别组成块；提取信息块。为了提高方法的通用性，在分数的计算公式中增加了系数并且可调系数权重。本发明适用于大多数的网页，不需要复杂的计算，简单实用。
搜索关键词：	基于 dom 行列分割 web 内容信息提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽理工大学，未经安徽理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202110258347.6/，转载请声明来源钻瓜专利网。

专利分类

免登录下载普通用户下载升级VIP会员，免费下载

专利文献下载