[发明专利]基于聚集文本密度的网页正文提取方法及装置有效

申请号：	201610050995.1	申请日：	2016-01-26
公开（公告）号：	CN105740355B	公开（公告）日：	2019-03-26
发明（设计）人：	刘忠;陈发君;黄金才;朱承;修保新;程光权;陈超;冯旸赫	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F16/958	分类号：	G06F16/958;G06F16/31
代理公司：	北京中济纬天专利代理有限公司 11429	代理人：	陈立新
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于聚集文本密度的网页正文提取方法及装置，该方法根据标签分隔网页HTML的方法，对网页文本内容进行分割，从而有效将其中的各类文本分开。无需定制特殊的网站提取规则，通用性强；无需使用复杂的文本挖掘手段，该方法简单高效，对各类网页正文提取准确高效。
搜索关键词：	基于聚集文本密度网页正文提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于聚集文本密度的网页正文提取方法，包括以下步骤：步骤S100：获取网页的HTML源文件文本，删除无价值的第一标签并剔除文本中的特殊字符，得到样本文本；步骤S200：将所述样本文本中所有第二标签替换为空行，生成多个空行文本，将空行文本转换为队列T，两两相邻的所述空行文本由空行符分隔；步骤S300：将所述队列T分隔成多个子队列，将每个所述子队列中的所有文本合并为一个文本块，将多个所述文本块组成队列B，根据文本阈值和索引阈值对所述队列T进行分割；步骤S400：从所述队列B中选取文本长度最大的文本作为网页正文；所述索引阈值为预设的任意两所述子队列间的空行数，所述文本阈值为预设的所述子队列中所含文本字符数；所述步骤S300中包括以下步骤：步骤S310：循环遍历队列T，记当前元素为Tc，若所述当前元素Tc的有效中文字符数小于所述文本长度阈值，则将所述当前元素Tc文本加入所述队列B中并继续遍历所述队列T，若所述当前元素Tc的有效中文字符数大于所述文本阈值则记所述当前元素Tc为当前有效文本Tcv，创建临时文本块Temp为当前有效文本Tcv的文本值；步骤S320：从所述当前有效文本Tcv之后的下一个元素开始遍历所述队列T，忽略空格或空行元素直到找到下一有效文本Ncv，如果所述下一有效文本Ncv与所述有效文本Tcv在队列T中的位置索引差值小于索引阈值，则将所述下一有效文本Ncv的文本追加到所述临时文本块Temp中，并将所述下一有效文本Ncv赋值给有效文本Tcv；步骤S330：继续对所述下一有效文本Ncv之后的下一个有效元素Ncvi+2遍历所述队列T，如果所述Ncvi+2与所述当前有效文本Tcv在所述队列T中的位置索引差值大于所述索引阈值，则将所述临时文本块Temp复制一份放入所述队列B中，将所述Ncvi+2赋值给所述当前元素Tc继续循环遍历队列T。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学，未经中国人民解放军国防科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610050995.1/，转载请声明来源钻瓜专利网。

上一篇：基于分布式内存的三维平台数据模糊查询方法
下一篇：一种数据处理方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于聚集文本密度的网页正文提取方法及装置有效

专利文献下载