[发明专利]网页正文的提取方法和装置有效
申请号: | 201410301298.X | 申请日: | 2014-06-27 |
公开(公告)号: | CN105335382B | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 王磊 | 申请(专利权)人: | 优视科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 杨国权;马佑平 |
地址: | 100083 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 正文 提取 方法 装置 | ||
1.一种网页正文的提取方法,其特征在于,所述方法包括:
读取网页数据,确定网页数据中包含的干扰数据,以及,用空字符替换所述干扰数据;
记录网页每一行的行号以及对应行内的文字个数;
利用所述每一行的行号以及对应行内的文字个数确定网页正文;
提取所述网页正文;
其中,利用所述每一行的行号以及对应行内的文字个数确定网页正文的步骤包括:
确定网页行号范围X,其中,X=1~j,j是正整数;
将网页中的空行的文字个数设置为负数;
根据设置后的每行文字个数,计算以第n行为最后一行的一段连续行的文字个数总和最大值F(n),其中,n=1~X;
根据F(n)与第n行的文字个数a[n],得到网页正文所处的行区间,包括:
确定最大行号j;计算初始行文字个数总和,F(1)=a[1];设置当前行号n=i,其中,i=2~j;计算以第n行为最后一行的一段连续行的文字个数总和最大值F(n)=F(n-1)+a[n];如果F(n-1)≤0,则F(n)=a[n],使n=n+1;如果F(n-1)>0,则F(n)=F(n-1)+a[n],使n=n+1;若n≠j,则转计算F(n)的步骤继续计算;若n=j时,则结束F(n)的计算;查找F(1)~F(j)中的最大值,将最大值所在行确定为网页正文所处行区间的终止行;根据所述最大值和每行文字个数a[n]确定网页正文所处行区间的起始行;
选择行区间的文字作为网页正文;
或者,利用所述每一行的行号以及对应行内的文字个数确定网页正文的步骤包括:
确定网页行号范围X,其中,X=1~j,j是正整数;
计算前n行的文字个数总和F(n),其中,n=1~X;
根据F(n)得到多个连续的正文区间,其中,n=1~X,所述根据F(n)得到多个连续的正文区间的步骤包括:
确定最大行号j;确定初始行号i,其中,i=1~j;设置当前行号n=i;当F(n)=F(n+1)时,确定正文区间为F(i)到F(n),结束F(n)的计算,或者转确定初始行号i的步骤继续判断;如果F(n)≠F(n+1),使n=n+1;如果n≠j,则转比较F(n)和F(n+1)的步骤继续判断;如果n=j,则结束F(n)的计算;
从连续的正文区间中选择一个或多个正文区间的文字作为网页正文;
或者,利用所述每一行的行号以及对应行内的文字个数确定网页正文的步骤包括:
确定网页行号范围X,其中,X=1~j,j是正整数;
逐次计算第n行与第n+h行之间的文字个数之和F(n),其中,n=1~X-h,h为大于1小于j的自然数;
将F(1)~F(n)中最大值对应的行数与该行之后h行的文字作为网页正文。
2.根据权利要求1所述的方法,其特征在于,所述将网页中空行的文字个数设置为负数的步骤包括:
根据网页正文在网页页面中的分散程度对负数的取值进行调整。
3.根据权利要求2所述的方法,其特征在于,所述根据网页正文在页面中的分散程度对负数的取值进行调整的步骤包括:
当网页正文在页面中分布集中时,所述负数为小于-10的负整数;
当网页正文在页面中分布分散时,所述负数为[-10,-1]中的任一负整数。
4.根据权利要求1所述的方法,其特征在于,在所述根据F(n)得到多个连续的正文区间的过程中,将文字个数大于预定数值的正文区间的文字作为网页正文。
5.一种网页正文的提取装置,其特征在于,包括:
噪声处理单元,用于读取网页数据,确定网页数据中包含的干扰数据,以及,用空字符替换所述干扰数据;
记录单元,用于记录网页每一行的行号以及对应行内的文字个数;
网页正文确定单元,用于利用所述每一行的行号以及对应行内的文字个数确定网页正文;
提取单元,用于提取所述网页正文;
其中,所述网页正文确定单元包括:
数据初始模块,用于确定网页的行号范围X,其中,X=1~j,j是正整数;以及将网页中空行的文字个数设置为负数;
数据处理模块,用于根据重新赋值后的每行文字个数,计算以第n行为最后一行的一段连续行的文字个数总和最大值F(n),其中,n=1~X;并根据F(n)与第n行的文字个数a[n],得到网页正文所处的行区间,以及选择行区间的文字作为网页正文;
其中,所述得到网页正文所处的行区间的步骤包括:
确定最大行号j;计算初始行文字个数总和,F(1)=a[1];设置当前行号n=i,其中,i=2~j;计算以第n行为最后一行的一段连续行的文字个数总和最大值F(n)=F(n-1)+a[n];如果F(n-1)≤0,则F(n)=a[n],使n=n+1;如果F(n-1)>0,则F(n)=F(n-1)+a[n],使n=n+1;若n≠j,则转计算F(n)的步骤继续计算;若n=j时,则结束F(n)的计算;查找F(1)~F(j)中的最大值,将最大值所在行确定为网页正文所处行区间的终止行;根据所述最大值和每行文字个数a[n]确定网页正文所处行区间的起始行;
或者,所述网页正文确定单元包括:
数据初始模块,用于确定网页行号范围X,其中,X=1~j,j是正整数;
数据处理模块,用于计算前n行的文字个数总和F(n),其中n=1~X;并根据F(n),得到多个连续的正文区间,其中n=1~X;以及从连续的正文区间中选择一个或多个正文区间的文字作为网页正文;
其中,所述根据F(n)得到多个连续的正文区间的步骤包括:
确定最大行号j;确定初始行号i,其中,i=1~j;设置当前行号n=i;当F(n)=F(n+1)时,确定正文区间为F(i)到F(n),结束F(n)的计算,或者转确定初始行号i的步骤继续判断;如果F(n)≠F(n+1),使n=n+1;如果n≠j,则转比较F(n)和F(n+1)的步骤继续判断;如果n=j,则结束F(n)的计算;
或者,所述网页正文确定单元包括:
数据初始模块,用于确定网页行号范围X,其中,X=1~j,j是正整数;
数据处理模块,用于逐次计算第n行与第n+h行之间的文字个数之和F(n),并查找F(1)~F(n)中最大值F(p),将p行与p+h行之间的文字作为网页正文,其中,n=1~X-h,p=1~X-h,h为大于1小于j的自然数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于优视科技有限公司,未经优视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410301298.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务可视化方法及系统
- 下一篇:一种流处理方法、装置及系统