[发明专利]一种智能化网页内容自动模糊抽取系统有效
申请号: | 201811511109.6 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109657180B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 符建辉;张燎 | 申请(专利权)人: | 中科国力(镇江)智能技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高娇阳 |
地址: | 212000 江苏省镇江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能化 网页 内容 自动 模糊 抽取 系统 | ||
1.一种智能化网页内容模糊抽取系统,其特征在于,包括以下模块:
模块A:HTML网页语料库的预处理
所述的模块A的实施步骤如下:对一个含有HTML网页的语料库S={P1, P2, ..., Pn},对每个网页Pi的DOM树,记为DOMi,对DOMi中的每个节点node,执行以下步骤:
步骤A-1:对node中的符号串“”用空格替代,对node中的符号串“”用“”替代,node中的符号串“”用“”替代,对node中的符号串“”用“”替代;
步骤A-2:如果node含有用于网页控制的script、用于网页布局的style、换行节点的br、图片img、输入框节input或者按钮button,或者node中有display:none属性或者href属性,那么从DOMi中删除node节点;
步骤A-3:如果node的子节点不含有标签,那么自动增加一个特殊的标签mytag;
模块B:HTML网页内容的快速多重索引的自动生成
所述模块B的实施步骤如下:引入两个索引 mapstring, integermap_count和mapstring, liststringmap_xpath_reverse;对网页语料库中的每一个HTML网页Pi,做以下步骤:
步骤B-1:以标签对网页Pi进行分割,形成形如标签1内容文本1标签2内容文本2...标签n内容文本n/标签1的DOM树结构,将切分后的内容文本i(1≤i≤n)在map_count中找出对应的键部分:如果(内容文本i, value)属于map_count,即存在(内容文本i, value)属于map_count,那么value=value+1;否则将(内容文本i, 1)添加到map_count中;
步骤B-2:以深度优先的方式遍历HTML页面Pi,把每个遍历到的节点的XPath路径放入到map_xpath_reverse中的XPath部分,将XPath对应的节点的内容文本加入到map_xpath_reverse中的XPath的内容文本部分;
模块C:候选业务主题的生成
所述模块C的实施步骤如下:引入一个数据结构liststirngtopic_list,用于存放候选的业务主题;从头开始遍历map_count,对map_count中的每一对(key,value),执行以下步骤:
步骤C-1:如果key是一个数词、数量词、百分数、时间词,或者key包含标点符号,那么key不是一个业务主题;
步骤C-2:如果TCW(topic-component words的缩写)不为空,而且key包含TCW中的一个主题命名要素,同时value5,那么key是一个业务主题,将key放入topic_list中;
模块D:候选业务主题的模糊验证
所述模块D的实现方法如下所述:引入一个单字统计表mapstring, integerchar_count,其中string部分称为char_count的键部分,integer部分称为char_count的键值部分,执行以下步骤:
步骤D-1:从头至尾遍历topic_list的每一项topic,设topic由汉字U1、U2、...、Uj、...、Uk构成;对每个Uj,其中1≤j≤k,如果char_count的键部分含有Uj,即存在(Uj,value)属于char_count,那么value=value+1;如果没有char_count的键部分含有Uj,那么将(Uj, 1)存放到char_count中;
步骤D-2:从头至尾遍历topic_list的每一项topic,设topic由汉字V1、V2、...、Vj、...、Vm构成;如果
那么在topic_list中仍保留topic,即topic是一个业务主题;否则从topic_list中删除topic,即topic不是一个业务主题;
模块E:候选业务主题与对应的XPath关联
所述模块E的实施方法如下:引入一个数据结构liststring, liststringtopic_xpath,用于存放topic_list中的候选业务主题及其与XPath的关联;从头开始遍历map_xpath_reverse,对map_xpath_reverse中的每对(XPath,XPath的内容文本),执行以下步骤:对XPath的内容文本部分中的每一项topic,如果topic出现在topic_list中,那么执行以下:如果topic不属于topic_xpath的XPath部分,那么将(topic,XPath)存放到topic_xpath中,否则将XPath加入到已存在于topic_xpath中的topic对应的XPath部分中;
模块F:HTML网页内容的抽取
所述模块F的具体实施子步骤如下:对DOM树语料库G={DOM1, DOM2, ..., DOMn}中的每一个DOMi,对DOMi中的每个节点node,执行以下步骤:
步骤F-1:如果node存在两个子节点node1和node2,其中node1的位置在node2之前,并且node1对应的内容文本存在于topic_list中,那么node1是业务主题节点,node2的内容文本为业务主题值,因此将二元组(node1的内容文本,node2的内容文本)存入结果集合W中;
步骤F-2:如果node存在两个子节点node1和node2,其中node1的位置在node2之前,并且node2对应的内容文本存在于topic_list中,那么node2的内容文本为业务主题,node1的内容文本为上述业务主题的业务主题值,因此将二元组(node2的内容文本,node1的内容文本)存入结果集合W中;
步骤F-3:如果node存在两个子节点node1和node2,其中node1的位置在node2之前,并且node1有一组子节点node11、node12、...、node1k,如果node11、node12、...、node1k的内容文本都存在于topic_list中,那么node11的内容文本、node12的内容文本、...、node1k的内容文本为业务主题,node2的子节点node21、node22、...、node2k的内容文本分别为上述业务主题的业务主题值,因此将(node11的内容文本,node21的内容文本)、(node12的内容文本,node22的内容文本)、...、(node1k的内容文本,node2k的内容文本)存入结果集合W中;
步骤F-4:如果node存在两个子节点node1和node2,其中node1的位置在node2之前,并且node2有一组子节点node21、node22、...、node2k,如果node21、node22、...、node2k的内容文本都存在于topic_list中,那么node21的内容文本、node22的内容文本、...、node2k的内容文本为业务主题,node1的子节点node11、node12、...、node1k的内容文本分别为上述业务主题的业务主题值,因此将(node21的内容文本,node11的内容文本)、(node22的内容文本,node12的内容文本)、...、(node2k的内容文本,node1k的内容文本)存入结果集合W中;
最终,输出从网页语料库抽取出的结果集合W。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科国力(镇江)智能技术有限公司,未经中科国力(镇江)智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811511109.6/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法