[发明专利]一种基于标题的网页有效元数据内容提取方法有效
申请号: | 201710349934.X | 申请日: | 2017-05-17 |
公开(公告)号: | CN107145591B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 陈桂清 | 申请(专利权)人: | 广州瞬速信息科技有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/951 |
代理公司: | 广州越华专利代理事务所(普通合伙) 44523 | 代理人: | 陈岑 |
地址: | 510000 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标题 网页 有效 数据 内容 提取 方法 | ||
本发明公开了一种基于标题的网页有效元数据内容提取方法,通过基于链接标题或网页标题来定义网页的主体内容所在的位置,可以无需对网页的HTML进行人工分析设定抽取规则,只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息,本发明易维护,无需配置抽取规则,自动适应各种网站的网页风格,大大减轻了维护成本;速度快,无需学习模式,只要有标题经过简单过滤后识别即可以快速锁定文章的主体信息,在大规模识别网页内容时具备有速度快的特点;精准性高,易读性强,可以较好地保留原文的风格,如加粗、字体大小等风格。
技术领域
本发明涉及,具体涉及一种基于标题的网页有效元数据内容提取方法。
背景技术
随着互联网络在全球范围内的飞速发展,网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。 网络技术推陈出新,网络新闻、论坛、博客、聚合新闻等层出不穷,且具有范围广、交互性强、更新速度快的特点,可以说任何人都可以在 BBS 论坛,留言版或者自建站点上发布言论和观点,而且,随着Web2.0的发展与广泛应用,互联网上的舆论信息迅速传遍。从对社会影响方面看,网络舆论成为社会舆论的一种重要表现形式。由于原始的网页信息中包含有大量的导航信息与广告信息等,对识别有效的舆论信息带来极大的干扰。那么如何从不同的网页中自动抽取出有效的正文内容、发表时间、原始来源、原始作者、相关的图片、表格、文档等元数据就变得尤为重要。
对于提取网页中的元数据内容传统的方法是对每个不同的网站配置不同的抽取模板,即根据所要监测网站的文章内容网页的展现形式通过正则表达式、前后字符或网页元素的XPATH路径等预先定义好抽取规则后分别提取相关的元数据。中国专利“CN201611027102.8一种基于网页聚类的正文信息提取方法” 提供了一种网页正文信息提取方法。此专利在基于相似的网站链接地址情况下,自动根据多个相似的网页的特征生成正文信息的抽取规则。
传统的根据不同的网站配置不同的网页内容抽取规则,需要投入较多人力来根据不同的网站配置不同的抽取模板。一旦目标网站的网页改版了,或者有稍微细小的调整都可能导致原来的抽取模板规则失效,需要重新根据新的版面配置新的抽取规则。这种形式维护工作量较大,不宜对数万乃至数十万上百万个网站的网页内容抽取。中国专利“CN201611027102.8一种基于网页聚类的正文信息提取方法”需要通过对目标网站上的大量相似的网页进行学习后提取特征自动生成规则,也会存在目标网站的网页改版后,需要重新学习抽取规则特征的情况。
发明内容
本发明的目的是提取出一种无需根据每个网站的展现形式制定抽取规则,根据网页的标题信息自动识别网页中有效元数据的方法。
本发明的目的是通过以下技术方案实现的:
一种基于标题的网页有效元数据内容提取方法,提取方法基于链接标题或网页标题来确定网页的主体内容所在的位置,无需对网页的HTML进行人工分析设定抽取规则,只需在识别时输入网页的HTML源码和链接标题信息即可以自动识别出与网页相关的各项元数据信息。
具体步骤如下:
(1)通过爬虫系统读取每个网站的链接、链接标题和网页内容后;
(2)将网页内容送入内容识别算法,识别算法先判断输入的内容中是否有链接标题,没有链接标题的自动提取网页中的title到/title中的内容作为信息标题;
(3)剔除网页源代码中的script、iframe、noscript、textarea、select、注释等信息,以加快有效内容的识别;
(4)将网页的HTML源代码转换成树状结构,在转换中同时记录每个树结点的中的句子数量、链接数量等以作为识别的辅助信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州瞬速信息科技有限公司,未经广州瞬速信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710349934.X/2.html,转载请声明来源钻瓜专利网。