[发明专利]网页正文的提取方法和装置有效

申请号：	201410301298.X	申请日：	2014-06-27
公开（公告）号：	CN105335382B	公开（公告）日：	2018-11-16
发明（设计）人：	王磊	申请（专利权）人：	优视科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京博雅睿泉专利代理事务所(特殊普通合伙) 11442	代理人：	杨国权;马佑平
地址：	100083 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请实施例公开了的一种网页正文提取方法和装置，所述方法包括：读取网页数据，确定网页数据中包含的干扰数据，以及，用空字符替换所述干扰数据；记录网页每一行的行号以及对应行内的文字个数；利用所述每一行的行号以及对应行内的文字个数确定网页正文；提取所述网页正文。与现有技术相比，本发明具有不依赖浏览器环境、不依赖页面结构以及扩展性较好的优点。
搜索关键词：	网页正文提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种网页正文的提取方法，其特征在于，所述方法包括：读取网页数据，确定网页数据中包含的干扰数据，以及，用空字符替换所述干扰数据；记录网页每一行的行号以及对应行内的文字个数；利用所述每一行的行号以及对应行内的文字个数确定网页正文；提取所述网页正文；其中，利用所述每一行的行号以及对应行内的文字个数确定网页正文的步骤包括：确定网页行号范围X，其中，X＝1～j，j是正整数；将网页中的空行的文字个数设置为负数；根据设置后的每行文字个数，计算以第n行为最后一行的一段连续行的文字个数总和最大值F(n)，其中，n＝1～X；根据F(n)与第n行的文字个数a[n]，得到网页正文所处的行区间，包括：确定最大行号j；计算初始行文字个数总和，F(1)＝a[1]；设置当前行号n＝i，其中，i＝2～j；计算以第n行为最后一行的一段连续行的文字个数总和最大值F(n)＝F(n‑1)+a[n]；如果F(n‑1)≤0，则F(n)＝a[n]，使n＝n+1；如果F(n‑1)＞0，则F(n)＝F(n‑1)+a[n]，使n＝n+1；若n≠j，则转计算F(n)的步骤继续计算；若n＝j时，则结束F(n)的计算；查找F(1)～F(j)中的最大值，将最大值所在行确定为网页正文所处行区间的终止行；根据所述最大值和每行文字个数a[n]确定网页正文所处行区间的起始行；选择行区间的文字作为网页正文；或者，利用所述每一行的行号以及对应行内的文字个数确定网页正文的步骤包括：确定网页行号范围X，其中，X＝1～j,j是正整数；计算前n行的文字个数总和F(n),其中，n＝1～X；根据F(n)得到多个连续的正文区间，其中，n＝1～X，所述根据F(n)得到多个连续的正文区间的步骤包括：确定最大行号j；确定初始行号i，其中，i＝1～j；设置当前行号n＝i；当F(n)＝F(n+1)时，确定正文区间为F(i)到F(n)，结束F(n)的计算，或者转确定初始行号i的步骤继续判断；如果F(n)≠F(n+1)，使n＝n+1；如果n≠j，则转比较F(n)和F(n+1)的步骤继续判断；如果n＝j，则结束F(n)的计算；从连续的正文区间中选择一个或多个正文区间的文字作为网页正文；或者，利用所述每一行的行号以及对应行内的文字个数确定网页正文的步骤包括：确定网页行号范围X，其中，X＝1～j,j是正整数；逐次计算第n行与第n+h行之间的文字个数之和F(n)，其中，n＝1～X‑h，h为大于1小于j的自然数；将F(1)～F(n)中最大值对应的行数与该行之后h行的文字作为网页正文。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于优视科技有限公司，未经优视科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410301298.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页正文的提取方法和装置有效

专利文献下载