[发明专利]基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法有效
申请号: | 202110751368.1 | 申请日: | 2021-07-02 |
公开(公告)号: | CN113486228B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 宫继兵;张瀚允;寇肖萌;龚石山;彭吉全 | 申请(专利权)人: | 燕山大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35;G06F16/903 |
代理公司: | 北京孚睿湾知识产权代理事务所(普通合伙) 11474 | 代理人: | 韩燕 |
地址: | 066004 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 md5 三叉 改进 birch 算法 互联网 论文 数据 自动 抽取 | ||
1.一种基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述方法包括以下步骤:
S1、数据抓取:从所需要抽取出互联网论文数据的网站中抓取到页面的HTML代码,并将其存储在本地数据库;
S2、页面清洗与预处理:删除页面注释、无用标签、空节点,合并文字内容,使得页面内有效文本内容均以行为单位居中于页面中央;
S3、基于MD5三叉树进行站内静态噪音去除:将经过清洗与预处理的页面采用基于MD5三叉树的站内静态模板噪音清除算法,去除静态噪音数据;
S4、基于节点间相似度进行页间动态噪音去除:将去除静态噪音的页面采用基于节点间相似度的页间噪音清除算法,去除动态噪音数据;
S5、基于改进BIRCH算法进行字段单元构建:将进行降噪处理后的页面使用基于改进的BIRCH聚类算法构建字段单元,所述步骤S5具体包括以下步骤:
S51、节点特征选择及向量化表示;
S52、基于改进BIRCH聚类算法构建字段单元;
S6、字段匹配:将得到的字段单元通过字段匹配与页面内容提取方法对字段单元和字段进行匹配,从而得到所需要提取的网页数据,所述步骤S6具体包括以下步骤:
S61、定义Web页面字段名称;
S62、定义字段匹配与页面内容提取方法:针对Web页面所表现出来的结构,基于规则的正则表达式进行字段匹配;针对部分字段规则呈现不明显且文本内容不存在任何语义的情况,基于数理统计进行字段匹配;
所述步骤S3具体包括以下步骤:
S31、通过使用网站页面的DOM树结构,对每一个页面定义一个三元组P=(Ω,Φ,η);
其中:Ω=(P1,P2,…,Pn)表示给定页面上DOM树的节点Pi集合,i=1~n;Φ=(tag,attrib,text,path)表示当前DOM子树的根节点信息,tag表示节点的标签名称,attrib表示节点的属性信息,text表示节点下的文本内容,path表示节点的路径;η表示Φ所生成的唯一标识信息,将它称作节点的“指纹”,采用MD5算法计算得出;
S32、将基于MD5三叉树模型数据结构表示为五元组(D,h,p,n,s);
其中:D表示HTML文档解析成的DOM树结构,表示该DOM树按深度遍历得到的所有节点的MD5值的集合;h表示前缀节点,表示从集合开始到第一个相同MD5值之间的子集;p表示噪音节点;n表示两个对比页面中相同MD5值的部分;s为后缀节点,表示从n中最后一个MD5后到h中最后一个MD5之间的子集;在构建三叉树的过程中可以递归表示成(hi,pi,ni,si),i表示三叉树的层数;
S33、将相同站点下两个页面按照上述方法进行定义和计算并进行比较,可以得到静态噪音,并进行清除;
所述步骤S4具体包括以下步骤:
S41、计算链接节点即动态模板噪音初值;
S42、计算链接节点相似度;
S43、计算其他链接节点对当前链接节点的总影响;
S44、将经过上述操作后得到的最终结果即为当前节点的最终噪音值;
S45、将节点的噪音值进行聚类。
2.根据权利要求1所述的基于MD5三叉树和改进BIRCH算法的互联网论文数据自动抽取算法,其特征在于,所述步骤S42具体包括以下步骤:
S421、计算节点间距离,即从根节点开始到两节点的路径中,除去公共节点后剩余节点的数量;
S422、节点间距离的倒数视为节点间的相似度值;
S423、构建链接节点间相似度矩阵;
所述步骤S45具体包括以下步骤:
S451、将噪音值映射到指定区间内,得到最终的节点得分Score:
其中:a和b分别表示映射到指定区间的边界值;x表示待输入的噪音值;xmin和xmax分别表示噪音值中的最小值和最大值,由于加入了基础节点,且噪音值均为正数,所以xmin恒为0;
S452、将得到的各链接节点的值后,采用CLARANS算法对节点进行聚类,固定聚类类别为2类,对应正文链接和噪音链接,从而去除动态模板噪音数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110751368.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种方便与拔插的三相多功能电力仪表
- 下一篇:安全采血针