[发明专利]一种智能化网页内容自动模糊抽取系统有效

专利信息
申请号: 201811511109.6 申请日: 2018-12-11
公开(公告)号: CN109657180B 公开(公告)日: 2021-11-26
发明(设计)人: 符建辉;张燎 申请(专利权)人: 中科国力(镇江)智能技术有限公司
主分类号: G06F16/958 分类号: G06F16/958;G06F16/951
代理公司: 南京知识律师事务所 32207 代理人: 高娇阳
地址: 212000 江苏省镇江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 智能化 网页 内容 自动 模糊 抽取 系统
【权利要求书】:

1.一种智能化网页内容模糊抽取系统,其特征在于,包括以下模块:

模块A:HTML网页语料库的预处理

所述的模块A的实施步骤如下:对一个含有HTML网页的语料库S={P1, P2, ..., Pn},对每个网页Pi的DOM树,记为DOMi,对DOMi中的每个节点node,执行以下步骤:

步骤A-1:对node中的符号串“”用空格替代,对node中的符号串“”用“”替代,node中的符号串“”用“”替代,对node中的符号串“”用“”替代;

步骤A-2:如果node含有用于网页控制的script、用于网页布局的style、换行节点的br、图片img、输入框节input或者按钮button,或者node中有display:none属性或者href属性,那么从DOMi中删除node节点;

步骤A-3:如果node的子节点不含有标签,那么自动增加一个特殊的标签mytag;

模块B:HTML网页内容的快速多重索引的自动生成

所述模块B的实施步骤如下:引入两个索引 mapstring, integermap_count和mapstring, liststringmap_xpath_reverse;对网页语料库中的每一个HTML网页Pi,做以下步骤:

步骤B-1:以标签对网页Pi进行分割,形成形如标签1内容文本1标签2内容文本2...标签n内容文本n/标签1的DOM树结构,将切分后的内容文本i(1≤i≤n)在map_count中找出对应的键部分:如果(内容文本i, value)属于map_count,即存在(内容文本i, value)属于map_count,那么value=value+1;否则将(内容文本i, 1)添加到map_count中;

步骤B-2:以深度优先的方式遍历HTML页面Pi,把每个遍历到的节点的XPath路径放入到map_xpath_reverse中的XPath部分,将XPath对应的节点的内容文本加入到map_xpath_reverse中的XPath的内容文本部分;

模块C:候选业务主题的生成

所述模块C的实施步骤如下:引入一个数据结构liststirngtopic_list,用于存放候选的业务主题;从头开始遍历map_count,对map_count中的每一对(key,value),执行以下步骤:

步骤C-1:如果key是一个数词、数量词、百分数、时间词,或者key包含标点符号,那么key不是一个业务主题;

步骤C-2:如果TCW(topic-component words的缩写)不为空,而且key包含TCW中的一个主题命名要素,同时value5,那么key是一个业务主题,将key放入topic_list中;

模块D:候选业务主题的模糊验证

所述模块D的实现方法如下所述:引入一个单字统计表mapstring, integerchar_count,其中string部分称为char_count的键部分,integer部分称为char_count的键值部分,执行以下步骤:

步骤D-1:从头至尾遍历topic_list的每一项topic,设topic由汉字U1、U2、...、Uj、...、Uk构成;对每个Uj,其中1≤j≤k,如果char_count的键部分含有Uj,即存在(Uj,value)属于char_count,那么value=value+1;如果没有char_count的键部分含有Uj,那么将(Uj, 1)存放到char_count中;

步骤D-2:从头至尾遍历topic_list的每一项topic,设topic由汉字V1、V2、...、Vj、...、Vm构成;如果

那么在topic_list中仍保留topic,即topic是一个业务主题;否则从topic_list中删除topic,即topic不是一个业务主题;

模块E:候选业务主题与对应的XPath关联

所述模块E的实施方法如下:引入一个数据结构liststring, liststringtopic_xpath,用于存放topic_list中的候选业务主题及其与XPath的关联;从头开始遍历map_xpath_reverse,对map_xpath_reverse中的每对(XPath,XPath的内容文本),执行以下步骤:对XPath的内容文本部分中的每一项topic,如果topic出现在topic_list中,那么执行以下:如果topic不属于topic_xpath的XPath部分,那么将(topic,XPath)存放到topic_xpath中,否则将XPath加入到已存在于topic_xpath中的topic对应的XPath部分中;

模块F:HTML网页内容的抽取

所述模块F的具体实施子步骤如下:对DOM树语料库G={DOM1, DOM2, ..., DOMn}中的每一个DOMi,对DOMi中的每个节点node,执行以下步骤:

步骤F-1:如果node存在两个子节点node1和node2,其中node1的位置在node2之前,并且node1对应的内容文本存在于topic_list中,那么node1是业务主题节点,node2的内容文本为业务主题值,因此将二元组(node1的内容文本,node2的内容文本)存入结果集合W中;

步骤F-2:如果node存在两个子节点node1和node2,其中node1的位置在node2之前,并且node2对应的内容文本存在于topic_list中,那么node2的内容文本为业务主题,node1的内容文本为上述业务主题的业务主题值,因此将二元组(node2的内容文本,node1的内容文本)存入结果集合W中;

步骤F-3:如果node存在两个子节点node1和node2,其中node1的位置在node2之前,并且node1有一组子节点node11、node12、...、node1k,如果node11、node12、...、node1k的内容文本都存在于topic_list中,那么node11的内容文本、node12的内容文本、...、node1k的内容文本为业务主题,node2的子节点node21、node22、...、node2k的内容文本分别为上述业务主题的业务主题值,因此将(node11的内容文本,node21的内容文本)、(node12的内容文本,node22的内容文本)、...、(node1k的内容文本,node2k的内容文本)存入结果集合W中;

步骤F-4:如果node存在两个子节点node1和node2,其中node1的位置在node2之前,并且node2有一组子节点node21、node22、...、node2k,如果node21、node22、...、node2k的内容文本都存在于topic_list中,那么node21的内容文本、node22的内容文本、...、node2k的内容文本为业务主题,node1的子节点node11、node12、...、node1k的内容文本分别为上述业务主题的业务主题值,因此将(node21的内容文本,node11的内容文本)、(node22的内容文本,node12的内容文本)、...、(node2k的内容文本,node1k的内容文本)存入结果集合W中;

最终,输出从网页语料库抽取出的结果集合W。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811511109.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top