[发明专利]撷取超文字标签语言文件内容的方法在审
申请号: | 201410003176.2 | 申请日: | 2014-01-03 |
公开(公告)号: | CN104765737A | 公开(公告)日: | 2015-07-08 |
发明(设计)人: | 蔡弘扬;洪启豪;谷鸿祥 | 申请(专利权)人: | 易搜比控股公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;田景宜 |
地址: | 开曼群岛大开曼省乔治*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种撷取超文字标签语言文件(HyperText Markup Language,HTML)内容的方法,从保留的HTML文件段落中记录所有目的标签的字元位置,通过从第一个目的标签做为第一起点标签及设定后续数个不同的起点标签的方式,以不超出HTML文件标题及包覆到最后一个目的标签为原则,分别进行段落区隔的步骤,以区隔出至少一个目标区块组,再依序将该些目标区块组与目的标签做关联性比对,藉以删除非重要的目标区块组,进而将剩余保留的目标区块组的内容输出,而准确地从该超文字标签语言文件中提取出包含重要内文及其他所需的资讯(例如与重要内文相关的图片、超连结等资讯)。 | ||
搜索关键词: | 撷取 文字 标签 语言 文件 内容 方法 | ||
【主权项】:
一种撷取超文字标签语言文件内容的方法,先取得一HTML文件,并执行一前置标签处理程序以撷取出一与主要内容相关的HTML文件段落,该HTML文件段落中包含至少一个目的标签及目的标签所包含的内容,其特征在于:该方法依据该HTML文件段落进行下列步骤:A、从该HTML文件段落中搜寻所有的目的标签,并将该些目的标签的字元位置资讯记录于一数据结构中;B、根据该数据结构中所记录的讯息找出该HTML文件段落中第一个目的标签及最后一个目的标签的字元位置;C、将该第一个目的标签设为一第一起点标签并进行段落区隔步骤,直至包覆到最后一个目的标签为止,藉以区隔出至少一个目标区块组;D、设定一关联值,将所述目标区块组依序与该目的标签做关联性比对并记录其关联值,将关联值达到设定条件的所述目标区块组删除;以及E、将剩余的所述目标区块组的内容输出成为所需文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易搜比控股公司,未经易搜比控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410003176.2/,转载请声明来源钻瓜专利网。