[发明专利]一种提取新闻网页正文的方法及装置在审

申请号：	201711045477.1	申请日：	2017-10-31
公开（公告）号：	CN110020296A	公开（公告）日：	2019-07-16
发明（设计）人：	马庆丽	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/957	分类号：	G06F16/957;G06F16/958
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	赵晓荣;王宝筠
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页模板网页分布规则新闻网页
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明一种提取新闻网页正文的方法及装置，所述方法包括：确定待提取网页的二级域名；获得所述二级域名的网页模板，同一个二级域名的各个网页对应同一个网页模板；由所述二级域名的网页模板对应的正文分布规则提取所述待提取网页的正文，所述网页模板对应的正文分布规则是通过具有该网页模板的网页训练获得的，所述正文分布规则用于确定该网页模板对应的正文起始位置。由于同一个二级域名的各个网页对应同一个网页模板，因此，对于具有同一个二级域名的各个新闻网页，无论是常规网页还是非常规网页，均可以利用该二级域名的网页模板对应的正文分布规则提取正文。

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种提取新闻网页正文的方法及装置。

背景技术

网页内容提取技术被广泛应用在互联网服务和应用中，例如：信息检索、文本自动分类、话题跟踪、机器翻译及自动摘要等。从网页中提取出高质量的正文对以上应用非常关键。

新闻网页正文提取属于网页内容提取中重要的一类。新闻网页正文的提取是指将网页中新闻的正文部分准确提取出来，不能将正文下方的评论信息、广告内容、侧边栏的推荐文章及广告等提取出来。

比较常规的新闻网页内容是正文文本量比较多，文字较为集中。现有对于正文抽取的方法也都普遍适用于这些文本量较大的新闻网页。

但随着网络的迅猛发展及其应用的日益丰富，涌现出大量非常规的网页。例如，新闻网页中存在大量的图片等非文本信息，称这种非常规新闻网页为“短正文网页”，他们的共同点是正文文本较短。

针对非常规网页的正文提取比较困难，因为这些网页的正文内容太短，导致常规网页的正文抽取方法无法适用于这些非常规网页，因此，本领域技术人员需要提供一种提取新闻网页正文的方法，具有通用性，可以提取文本量较大的新闻网页也可以提取文本量较小的新闻网页。

发明内容

为了解决现有技术中存在的以上技术问题，本发明提供一种提取新闻网页正文的方法及装置，具有通用性，可以提取文本量较大的新闻网页也可以提取文本量较小的新闻网页。

本发明提供一种提取新闻网页正文的方法，包括：

确定待提取网页的二级域名；