[发明专利]撷取超文字标签语言文件内容的方法在审

专利信息
申请号: 201410003176.2 申请日: 2014-01-03
公开(公告)号: CN104765737A 公开(公告)日: 2015-07-08
发明(设计)人: 蔡弘扬;洪启豪;谷鸿祥 申请(专利权)人: 易搜比控股公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京律诚同业知识产权代理有限公司 11006 代理人: 梁挥;田景宜
地址: 开曼群岛大开曼省乔治*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 撷取 文字 标签 语言 文件 内容 方法
【说明书】:

技术领域

发明是一种网页内容的萃取方法,特别是有关于一种可以从超文字标签语言(HyperText Markup Language,HTML)文件中提取包含重要内文及其他所需的资讯(例如与重要内文相关的图片、超连结等资讯)的方法。

背景技术

在现有的相关将HTML文件转换为纯文字内容的技术中,都只着重在如何将重要内文提取出,其诉求在避免提取出不重要的垃圾内容的文字资讯及提高纯文字结果的准确率,但往往忽略了与重要内文相关的图片或超连结等资讯,令使用者在阅读上,常会看不到相关讯息、图片甚或看不懂内文在写什么。

在发明人前所公开并已核准的一种从超文字标签语言(HyperText Markup Language,HTML)文件转换成纯文字文件的方法中,公开针对<p>、<br>等目的标签抓取重要内文段落,并以一预设的句子索引值作为段落区隔的依据,将保留的HTML文件段落区隔为数个目标区块,再进一步从这数个目标区块中找出最接近HTML文件标题文意的目标区块将之输出成为纯文字文字,虽可提高提取重要内文的准确性,但在特殊情况下,会将任何与文件标题有关的段落认定为重要而抓取进来,例如重要内文之后的读者回应,若读者回应中有提及HTML文件标题,则该篇读者回应会被当做重要内文的段落而一并提取出来,而造成内容提取错误,且该方法无法提取出与重要内容相关的图片或超连结等资讯,甚为可惜。

而在另一种已知的解析HTML的树状标签结构的做法中,虽可提取出与重要内文相关的图片或超连结等资讯,但该技术需先将整个HTML文件全部树状结构化,再从其中取得一至数个节点(node)内的内容为重要内文,该做法需在可解析整个HTML文件的特定环境下方能执行,其处理上既受限且费时,且判断哪些节点系为重要内文所在,常有失误,再者若重要内文分属好几个段落而落在不同的节点中的话,非常容易遗露其他节点中的重要内文资讯。

发明内容

为解决上述问题,本发明的主要目的在于提供一种可从超文字标签语言文件(HTML文件)准确提取包含重要内文及所需的资讯(例如与重要内文相关的图片、超连结等资讯),供使用者便于阅读的一种从超文字标签语言文件(HyperText Markup Language,HTML)提取所需内容的方法。

为达上述目的,本发明的方法系先取得一HTML文件,并执行一前置标签处理程序以撷取出一与主要内容相关的HTML文件段落,该HTML文件段落中包含了至少一个<p>标签或<br>标签所包含的内容,所述的<p>标签及<br>标签即为目的标签,再依据该HTML文件段落进行下列步骤:

A、从该HTML文件段落中搜寻所有的目的标签,并将该些目的标签的字元位置资讯记录于一数据结构中;

B、根据该数据结构中所记录的讯息找出该HTML文件段落中第一个目的标签及最后一个目的标签的位置;

C、将该第一个目的标签设为一第一起点标签并进行段落区隔步骤,直至包覆到最后一个目的标签为止,藉以区隔出至少一个目标区块组;

D、设定一关联值,将该(些)目标区块组依序与该目的标签做关联性比对并记录其关联值,将关联值达到设定条件的该(些)目标区块组删除;

E、将剩余的该(些)目标区块组的内容输出成为所需文件。

其中,步骤C中的段落区隔步骤,系以不超出HTML文件标题及包覆到最后一个目的标签为原则,进行连续的、不同的目标区块组的扩散包覆动作,其系以第一个目的标签做为第一起点标签进行扩散包覆的动作,藉以包覆出一第一目标区块组,此时判断若该第一目标区块组尚未包覆到最后一个目的标签且包覆范围未超出HTML文件标题时,再藉由设定不同的起点标签,分别进行扩散包覆的动作,使之分别包覆出数个不同的目标区块组,直到最后一个目的标签被其中之一个目标区块组包覆到为止。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易搜比控股公司,未经易搜比控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410003176.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top