[发明专利]面向新闻网页的正文抽取方法及系统、信息数据处理终端在审

申请号：	201810501222.X	申请日：	2018-05-23
公开（公告）号：	CN108959372A	公开（公告）日：	2018-12-07
发明（设计）人：	詹咏松;程国艮	申请（专利权）人：	中译语通科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京万贝专利代理事务所(特殊普通合伙) 11520	代理人：	马红
地址：	100040 北京市石***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	正文抽取新闻网页正文信息信息数据处理噪音信息终端计算机软件技术服务器资源大概位置定位文本快速获取快速提取时间信息线性计算准确定位过去的切块去除标签网页文本节约分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于计算机软件技术领域，公开了一种面向新闻网页的正文抽取方法及系统、信息数据处理终端，对新闻正文抽取首先基于每个新闻都有对应的时间，对时间进行定位，确定正文位置，进行切块。对所定位的正文进行判断，去除噪音信息，得到准确的正文信息。本发明基于对新闻网页结构特点的分析，依据新闻的时间信息准确定位新闻正文信息在整个网页中的大概位置，依据特殊标签或文本聚集密度确切定位文本位置，能够准确快速获取新闻的正文信息，不含噪音信息。相对于过去的新闻正文抽取的计算方法，在本发明中利用线性计算的方法来提取新闻正文，计算简单而且能够快速提取正文，有效节约现有很多的服务器资源。

技术领域

本发明属于计算机软件技术领域，尤其涉及一种面向新闻网页的正文抽取方法及系统、信息数据处理终端。

背景技术

目前，业内常用的现有技术是这样的：随着互联网的不断迅速发展，相应的网络信息也爆炸式增长，新闻网页信息成为人们获取信息的主要方式。面对海量的网页信息用户很难有效而且迅速定位自己所需的信息。传统的解决方式是依据人工对网页进行分类，显然，随着网页数量的迅速增长，这种方式早已不可取。如何在海量的网页信息中获取到用户所需的正文信息成为信息领域研究的问题。同时随着互联网的迅速发展，人们可以在互联网上寻找自己所需的信息。虽然搜索引擎：如Google、Yahoo；离线浏览工具：如Teleport、Webzip；信息过滤系统、如Harvest原型系统、Amalthaea系统等信息采集工具给人们带来了很大的便利，但是新闻网页正文的四周存在着不需要的信息—噪音信息，如广告链接、导航链接、脚本程序等这些信息极大程度上干扰了用户的视线，从而使得用户获取新闻正文信息时受到干扰，如何获取新闻网页的正文信息，而避开那些不必要的噪音信息的干扰，对于新闻数据的清洗，文档自动摘要的形式以及文档等许多领域的应用是非常重要的。用户总是将一个网页看做不同的语义对象，而不是单个的对象。且希望页面的一定功能块出现在特定的网页位置，实际上当新闻网页呈现给用户时，视觉上已经给用户分成了多个语义块，而以前的许多研究把网页看成一个整体，及各语义块价值相等。但是对于新闻网页来说，网页上的信息块很明显有不同的权重。而且用户在浏览新闻网页时，很少去看那些与新闻正文无关的信息。

综上所述，现有技术存在的问题是：

(1)HTMLA标记语言着重于数据的结构与可视化，却缺乏对数据的具体描述，从HTMLA文件中获取需要的数据信息并不容易。

(3)网页结构不统一且自由多变，造成传统基于网页模板的正文抽取方法往往是不能适应网页的抽取。

解决上述技术问题的难度和意义：由于HTMLA标记语言的特点以及网页结构特点，要想从这样夹杂着大量噪音信息的文件中获取想要的正文信息是比较难的。如果通过某种方法，克服这些困难，这将有利于快速准确的获取到所需的信息，而且节约更多的服务器资源，避免过多的浪费。

发明内容

针对现有技术存在的问题，本发明提供了一种面向新闻网页的正文抽取方法及系统、信息数据处理终端。

本发明是一种面向新闻网页的正文抽取方法，其具体实施方案为：首先是基于每个新闻都有对应的发布时间，然后根据此时间进行定位，确定正文位置，根据正文所在的位置对正文进行切块处理，最后通过计算进行准确判断并提取出所需的新闻正文信息，去除噪音信息，得到准确的正文信息。

所述面向新闻网页的正文抽取方法包括以下步骤：

步骤一，基于新闻网页的都有个时间T这一特点，以T为起点进行正文搜索；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司，未经中译语通科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】