[发明专利]网页正文抽取方法及装置有效
申请号: | 201510527675.6 | 申请日: | 2015-08-25 |
公开(公告)号: | CN105183801B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 朱国库;蒋文保 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国之大铭知识产权代理事务所(普通合伙) 11565 | 代理人: | 朱晓蕾 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种网页正文抽取方法及系统,其中方法包括:提取网页HTML源码中的title标签中的文本,以及h标签中的文本;根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题;提取网页HTML源码中的body标签中的标签源码;对body标签中的标签源码进行第一抽取处理,获取第一网页正文;确定行块分布函数,并根据行块分布函数抽取文本块;对文本块进行第二抽取处理,获取第二网页正文。通过本发明采用的网页正文抽取方法及装置,其通用性更好,且可以快速并准确的进行抽取,保证了网页正文抽取的顺利进行。 | ||
搜索关键词: | 标签 网页正文抽取 抽取 文本 分布函数 网页正文 文本块 行块 源码 网页 文本相似度 保证 | ||
【主权项】:
1.一种网页正文抽取方法,其特征在于,包括:提取网页HTML源码中的title标签中的文本,以及h标签中的文本;根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题;提取网页HTML源码中的body标签中的标签源码;对所述body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理;确定行块分布函数,并根据所述行块分布函数抽取文本块;对所述文本块进行第二抽取处理,获取第二网页正文,其中:所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理;其中,所述确定行块分布函数,并根据所述行块分布函数抽取文本块包括:按照固定文本块的块长对所述第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;确定骤升点和骤降点,抽取位于所述骤升点和所述骤降点内的文本块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510527675.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种集成型智能配电箱
- 下一篇:一种泥水盾构泥膜形成过程的模拟试验装置