[发明专利]撷取超文字标签语言文件内容的方法在审
申请号: | 201410003176.2 | 申请日: | 2014-01-03 |
公开(公告)号: | CN104765737A | 公开(公告)日: | 2015-07-08 |
发明(设计)人: | 蔡弘扬;洪启豪;谷鸿祥 | 申请(专利权)人: | 易搜比控股公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;田景宜 |
地址: | 开曼群岛大开曼省乔治*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 撷取 文字 标签 语言 文件 内容 方法 | ||
1.一种撷取超文字标签语言文件内容的方法,先取得一HTML文件,并执行一前置标签处理程序以撷取出一与主要内容相关的HTML文件段落,该HTML文件段落中包含至少一个目的标签及目的标签所包含的内容,其特征在于:该方法依据该HTML文件段落进行下列步骤:
A、从该HTML文件段落中搜寻所有的目的标签,并将该些目的标签的字元位置资讯记录于一数据结构中;
B、根据该数据结构中所记录的讯息找出该HTML文件段落中第一个目的标签及最后一个目的标签的字元位置;
C、将该第一个目的标签设为一第一起点标签并进行段落区隔步骤,直至包覆到最后一个目的标签为止,藉以区隔出至少一个目标区块组;
D、设定一关联值,将所述目标区块组依序与该目的标签做关联性比对并记录其关联值,将关联值达到设定条件的所述目标区块组删除;以及
E、将剩余的所述目标区块组的内容输出成为所需文件。
2.如权利要求1所述的撷取超文字标签语言文件内容的方法,其特征在于,该目的标签包含标签<p>和标签<br>。
3.如权利要求1所述的撷取超文字标签语言文件内容的方法,其特征在于,步骤C中的段落区隔步骤包括:
C-1、由该第一起点标签向上寻找出一落单的头标签,将之设为一第一目标区块前边界;
C-2、由该第一起点标签向下寻找出一落单的尾标签,将之设为一第一目标区块后边界;
C-3、将该第一目标区块前边界及该第一目标区块后边界范围内所包覆的内容,合并成一第一目标区块组;
C-4、若该第一目标区块组的内容已包覆到最后一个目的标签时,则进行D步骤,若尚未包覆到最后一个目的标签时则继续进行下一步骤;
C-5、若该第一目标区块组的内容已包覆到HTML文件标题时,则进行C-11步骤,若尚未包覆到HTML文件标题时则继续进行下一步骤;
C-6、将该第一目标区块前边界设为一第二起点标签,并由该第二起点标签向上寻找出一落单的头标签,将之设为一第二目标区块前边界;
C-7、将该第一目标区块后边界设为一第三起点标签,并由该第三起点标签向下寻找出一落单的尾标签,将之设为一第二目标区块后边界;
C-8、将该第二目标区块前边界及该第二目标区块后边界范围内所包覆的内容,合并成一第二目标区块组;
C-9、若该第二目标区块组的内容未包覆到HTML文件标题时,删除该第一目标区块组的设定,并将该第二目标区块组设为新的第一目标区块组,并返回进行步骤C-4;
C-10、若该第二目标区块组的内容包覆到HTML文件标题时,删除该第二目标区块组的设定,保留该第一目标区块组的内容,并返回进行步骤C-4;
C-11、将所在的该目标区块后边界的下一个头标签设为一第四起点标签,将之当成另一新目标区块的前边界,并由该第四起点标签向下寻找出对应的尾标签,将之设为该另一新目标区块的后边界;
C-12、将该另一新目标区块前边界及该另一新目标区块后边界范围内所包覆的内容,合并成一另一新目标区块组;以及
C-13、若该另一新目标区块组的内容未包覆到最后一个目的标签时,则返回进行步骤C-11,藉以区隔出数个目标区块组,直至该HTML文件中最后一个目的标签被其中一个目标区块组包覆到为止。
4.如权利要求1所述的撷取超文字标签语言文件内容的方法,其特征在于,步骤D还包括:
D-1、设定一N值;
D-2、依序检查每一个目标区块组中是否包含该目的标签,并若该目标区块组未包含该目的标签,则关联值累加1,并继续检查下一个目标区块组,若该目标区块组包含该目的标签时,则关联值重设为0,并继续检查下一个目标区块组;
D-3、若所在的目标区块组的关联值等于该N值时,停止检查下一个目标区块组,并将所在的该目标区块组之下的所有目标区块组删除;以及
D-4、从所在的该目标区块组开始往上删除N个目标区块组。
5.如权利要求4所述的撷取超文字标签语言文件内容的方法,其特征在于,该N值为3。
6.如权利要求1所述的撷取超文字标签语言文件内容的方法,其特征在于,该数据结构所储存的相关资讯包括:每一个目的标签的资讯及该目的标签出现的字元位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易搜比控股公司,未经易搜比控股公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410003176.2/1.html,转载请声明来源钻瓜专利网。