[发明专利]网页人物主题相关信息提取方法在审

专利信息
申请号: 201710783655.4 申请日: 2017-09-04
公开(公告)号: CN107590219A 公开(公告)日: 2018-01-16
发明(设计)人: 费高雷;周成阳;胡光岷 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都宏顺专利代理事务所(普通合伙)51227 代理人: 周永宏
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 人物 主题 相关 信息 提取 方法
【说明书】:

技术领域

发明属于web信息抽取技术领域,尤其涉及一种网页人物主题相关信息提取方法。

背景技术

随着互联网技术的高速发展,各种各样的网页数量呈爆炸式增长。这些网页根据内容的不同大致可分为展示型,内容型,电子商务型,门户型等类型的网页。如何从这些种类繁杂的网站中高效准确的提取到关键有用的信息变得至关重要,同时也存在相当大的挑战。由于网页中的内容极其丰富,既有用户想要浏览的主题信息,也有一些例如广告条,页面导航条,产品推荐,链接,网站版权说明等信息,这些噪声信息往往是用户不希望看到的,同时这些噪声信息也对面向网页的大数据处理诸如网页分类和聚类,话题检测,知识挖掘等任务造成很大的干扰。因此如何去除这些噪声信息,以及如何较为完整的提取网页主题信息成为了现今web信息检索乃至web信息挖掘的一个重要的数据预处理工作。

从网页中提取这些主题信息属于web信息抽取技术的范畴,web信息抽取是指从半结构化的web文档中抽取数据,并将其转换成更为结构化,语义更为清晰的数据表示。网页主题信息抽取主要围绕在以下几个方面的处理上:一,基于模板匹配的方法。这种方法主要基于网站中页面共享的模板,通过将网站的模板识别出来,然后利用模板对页面进行匹配以识别网页主题信息;二,基于启发式规则的方法。这个方面包含有各种各样不同的处理方法,大致又可细分为基于HTML结构特征,基于HTML内容特征和基于HTML视觉特征来构建启发式规则的方法;三,基于机器学习的方法。这种方法主要适用于大规模网页数据集的处理,首先利用人工标注的网页数据训练出网页主题信息分类模型,然后利用分类器来识别网页中的主题和非主题信息。

超文本标记语言(HyperText Markup Language,简称HTML)是网页编写的基本语言。“超文本”就是指页面内可以包含图片,链接,甚至音乐,程序等非文字元素。网页也称HTML文档,通过结合使用其他web技术(如:脚本语言,公共网关接口,组件等),可以创造出功能强大的网页。这些HTML文档以.htm或.html作为扩展名,包含HTML标签和纯文本。标准的HTML文档都具有一个基本的整体结构,HTML标签是由尖括号包围的关键词,如<html>。标记一般成对出现,比如<b>和</b>,这些标签对中的第一个标签是开始标签,第二个标签是结束标签。通常我们通过浏览器看到的网页是经过浏览器解析html文档后显示的,浏览器不会显示HTML标签,而是使用标签来解释页面内容。

在对网页进行主题信息提取过程中,由于获得的原始数据就是HTML文档,因此需要对HTML语法结构有个清楚的认识。能从网页中提取到的重要信息一般来源于<head>和<body>标签内。

文档对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口。在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM。DOM提供了访问页面中各个元素属性与方法的接口。每一个网页都对应了一个DOM树,通过对DOM树遍历,可以对页面中每一个元素进行处理。树的每个结点是一个对象。DOM模型不仅描述了文档的结构,还定义了结点对象的行为,利用对象的方法和属性,可以方便地访问,修改,添加和删除DOM树的结点和内容。

基于模板的网页主题提取方法的核心思想是把网页中重复出现的内容看作模板,并认为这些内容是噪声信息,然后将待处理的网页与训练网页集网页生成的模板进行匹配,匹配结果中不在模板之列的内容即被认为是网页主题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710783655.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top