[发明专利]一种从单记录网页中抽取规律噪音的方法有效
申请号: | 201210592795.0 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103064966A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 程学旗;李海燕;郭岩;万圣贤;郭少华;刘悦;余智华 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 记录 网页 抽取 规律 噪音 方法 | ||
1.一种从单记录网页中抽取规律噪音的方法,所述方法包括:
步骤1)、将多个单记录网页转化为DOM树,并且将所述DOM树按照结构进行分类;
步骤2)、将同一类别的DOM树进行对齐合并得到站点板块风格树;
步骤3)、根据网页正文标题节点和网页正文主体节点在所述站点板块风格树中的近似位置,抽取正文前、正文中和正文后的规律噪音。
2.根据权利要求1所述的方法,其中步骤1)中将所述DOM树按照结构进行分类包括:
步骤11)、选择一棵DOM树为已知类别;
步骤12)、从其余未经分类的DOM树中选择一棵需要进行分类的DOM树,将该需要进行分类的DOM树与已知类别中的每棵DOM树计算相似度;
步骤13)、判断步骤12)中计算得到的最大相似度是否满足大于或等于预先设定的阈值,如果满足则将所述需要进行分类的DOM树归到与其相似度最大的DOM树所在的已知类别,作为该已知类别中的DOM树,如果不满足则新建一个包含所述需要进行分类的DOM树的类别作为已知类别;
步骤14)如果仍存在未经分类的DOM树则返回步骤12),否则返回分类好的DOM树集合。
3.根据权利要求2所述的方法,其中步骤12)中需要进行分类的DOM树和已知类别DOM树的相似度的计算步骤如下:
步骤121)、将需计算相似度的两棵DOM树的根节点迭代器集合加入到队列中;
步骤122)、将所述队列的队列头的迭代器集合弹出,将该集合中的两个迭代器的孩子迭代器进行匹配,得到对齐的两个迭代器集合;
步骤123)、遍历对齐后的迭代器,将匹配上的迭代器集合加入到队列中,且将该集合中迭代器的匹配信息设置为1;将没有匹配上的迭代器的匹配信息设置为0;若所述队列不为空,返回步骤122);
步骤124)、将需要进行分类的DOM树自下而上计算每个迭代器的相似度权重,公式如下:
迭代器的相似度权重=迭代器本身的匹配信息+匹配上的子迭代器的百分率*所有孩子迭代器相似度权重值和,
返回根迭代器的相似度权重作为需要进行分类的DOM树和已知类别DOM树的相似度。
4.根据权利要求3所述的方法,其中步骤122)中使用Needleman-Wunsch算法对所述集合中的两个迭代器的孩子迭代器进行匹配。
5.根据权利要求1-4中任何一个所述的方法,其中步骤1)还包括:在将所述DOM树按照结构进行分类之前,删除DOM树上的form节点以及不可见节点。
6.根据权利要求1-4中任何一个所述的方法,其中步骤1)后还包括对同一类别的DOM树进行语言检测,判断是中文还是英文。
7.根据权利要求1-4中任何一个所述的方法,其中步骤2)中同一类别的DOM树的数量大于或等于2。
8.根据权利要求7所述的方法,其中步骤2)中将同一类别的DOM树进行对齐合并包括:
步骤21)、将同一类别的DOM树的每一对应层的节点对齐;
步骤22)、将对齐后每个位置对应的节点,插入站点板块风格树,其中:
如果该位置对应的节点全是标签节点,则将第一个标签插入站点板块风格树中的相应位置;
如果该位置对应的节点全是文本叶子节点,则统计并记录每个文本叶子节点出现的次数,将内容互不重复的文本叶子节点全插入站点板块风格树中的相应位置;
如果该位置对应的节点部分是文本叶子节点部分是标签节点,则选择第一个标签节点插入站点板块风格树中的相应位置,统计并记录每个文本叶子节点出现的次数,将内容互不重复的叶子节点全插入站点板块风格树中相应位置。
9.根据权利要求8所述的方法,其中步骤21)中使用中心星算法将同一类别的DOM树的每一对应层的节点对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210592795.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:短序列组装中序列片段的过滤方法及系统
- 下一篇:图像检索方法和装置