[发明专利]网页正文抽取方法及装置有效

申请号：	201510527675.6	申请日：	2015-08-25
公开（公告）号：	CN105183801B	公开（公告）日：	2018-07-06
发明（设计）人：	朱国库;蒋文保	申请（专利权）人：	北京信息科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京国之大铭知识产权代理事务所(普通合伙) 11565	代理人：	朱晓蕾
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种网页正文抽取方法及系统，其中方法包括：提取网页HTML源码中的title标签中的文本，以及h标签中的文本；根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题；提取网页HTML源码中的body标签中的标签源码；对body标签中的标签源码进行第一抽取处理，获取第一网页正文；确定行块分布函数，并根据行块分布函数抽取文本块；对文本块进行第二抽取处理，获取第二网页正文。通过本发明采用的网页正文抽取方法及装置，其通用性更好，且可以快速并准确的进行抽取，保证了网页正文抽取的顺利进行。
搜索关键词：	标签网页正文抽取抽取文本分布函数网页正文文本块行块源码网页文本相似度保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种网页正文抽取方法，其特征在于，包括：提取网页HTML源码中的title标签中的文本，以及h标签中的文本；根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题；提取网页HTML源码中的body标签中的标签源码；对所述body标签中的标签源码进行第一抽取处理，获取第一网页正文，其中：所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理；确定行块分布函数，并根据所述行块分布函数抽取文本块；对所述文本块进行第二抽取处理，获取第二网页正文，其中：所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理；其中，所述确定行块分布函数，并根据所述行块分布函数抽取文本块包括：按照固定文本块的块长对所述第一网页正文进行分块，计算每个行块中文本的字符数后构造出行块分布函数；确定骤升点和骤降点，抽取位于所述骤升点和所述骤降点内的文本块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学，未经北京信息科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510527675.6/，转载请声明来源钻瓜专利网。

上一篇：一种集成型智能配电箱
下一篇：一种泥水盾构泥膜形成过程的模拟试验装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页正文抽取方法及装置有效

专利文献下载