[发明专利]面向新闻网页的正文抽取方法及系统、信息数据处理终端在审

申请号：	201810501222.X	申请日：	2018-05-23
公开（公告）号：	CN108959372A	公开（公告）日：	2018-12-07
发明（设计）人：	詹咏松;程国艮	申请（专利权）人：	中译语通科技股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京万贝专利代理事务所(特殊普通合伙) 11520	代理人：	马红
地址：	100040 北京市石***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于计算机软件技术领域，公开了一种面向新闻网页的正文抽取方法及系统、信息数据处理终端，对新闻正文抽取首先基于每个新闻都有对应的时间，对时间进行定位，确定正文位置，进行切块。对所定位的正文进行判断，去除噪音信息，得到准确的正文信息。本发明基于对新闻网页结构特点的分析，依据新闻的时间信息准确定位新闻正文信息在整个网页中的大概位置，依据特殊标签或文本聚集密度确切定位文本位置，能够准确快速获取新闻的正文信息，不含噪音信息。相对于过去的新闻正文抽取的计算方法，在本发明中利用线性计算的方法来提取新闻正文，计算简单而且能够快速提取正文，有效节约现有很多的服务器资源。
搜索关键词：	正文抽取新闻网页正文信息信息数据处理噪音信息终端计算机软件技术服务器资源大概位置定位文本快速获取快速提取时间信息线性计算准确定位过去的切块去除标签网页文本节约分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向新闻网页的正文抽取方法，其特征在于，所述面向新闻网页的正文抽取方法基于每个新闻都有对应的时间，对时间进行定位，确定正文位置，进行切块；对所定位的正文进行判断，去除噪音信息，得到准确的正文信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司，未经中译语通科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810501222.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]面向新闻网页的正文抽取方法及系统、信息数据处理终端在审

专利文献下载