[发明专利]一种智能化网页内容自动模糊抽取系统有效

申请号：	201811511109.6	申请日：	2018-12-11
公开（公告）号：	CN109657180B	公开（公告）日：	2021-11-26
发明（设计）人：	符建辉;张燎	申请（专利权）人：	中科国力（镇江）智能技术有限公司
主分类号：	G06F16/958	分类号：	G06F16/958;G06F16/951
代理公司：	南京知识律师事务所 32207	代理人：	高娇阳
地址：	212000 江苏省镇江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能化网页内容自动模糊抽取系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种智能化网页内容模糊抽取系统，其特征在于，包括以下模块：

模块A：HTML网页语料库的预处理

所述的模块A的实施步骤如下：对一个含有HTML网页的语料库S={P1, P2, ..., Pn}，对每个网页Pi的DOM树,记为DOMi，对DOMi中的每个节点node，执行以下步骤：

步骤A-1：对node中的符号串“”用空格替代，对node中的符号串“”用“”替代，node中的符号串“”用“”替代，对node中的符号串“”用“”替代；

步骤A-2：如果node含有用于网页控制的script、用于网页布局的style、换行节点的br、图片img、输入框节input或者按钮button，或者node中有display:none属性或者href属性，那么从DOMi中删除node节点；

步骤A-3：如果node的子节点不含有标签，那么自动增加一个特殊的标签mytag；

模块B：HTML网页内容的快速多重索引的自动生成

所述模块B的实施步骤如下：引入两个索引 mapstring, integermap_count和mapstring, liststringmap_xpath_reverse；对网页语料库中的每一个HTML网页Pi，做以下步骤：

步骤B-1：以标签对网页Pi进行分割，形成形如标签1内容文本1标签2内容文本2...标签n内容文本n/标签1的DOM树结构，将切分后的内容文本i（1≤i≤n）在map_count中找出对应的键部分：如果（内容文本i, value）属于map_count，即存在（内容文本i, value）属于map_count，那么value=value+1；否则将（内容文本i, 1）添加到map_count中；

步骤B-2：以深度优先的方式遍历HTML页面Pi，把每个遍历到的节点的XPath路径放入到map_xpath_reverse中的XPath部分，将XPath对应的节点的内容文本加入到map_xpath_reverse中的XPath的内容文本部分；

模块C：候选业务主题的生成

所述模块C的实施步骤如下：引入一个数据结构liststirngtopic_list，用于存放候选的业务主题；从头开始遍历map_count，对map_count中的每一对（key，value），执行以下步骤：

步骤C-1：如果key是一个数词、数量词、百分数、时间词，或者key包含标点符号，那么key不是一个业务主题；

步骤C-2：如果TCW（topic-component words的缩写）不为空，而且key包含TCW中的一个主题命名要素，同时value5，那么key是一个业务主题，将key放入topic_list中；

模块D：候选业务主题的模糊验证

所述模块D的实现方法如下所述：引入一个单字统计表mapstring, integerchar_count，其中string部分称为char_count的键部分，integer部分称为char_count的键值部分，执行以下步骤：

步骤D-1：从头至尾遍历topic_list的每一项topic，设topic由汉字U1、U2、...、Uj、...、Uk构成；对每个Uj，其中1≤j≤k，如果char_count的键部分含有Uj，即存在（Uj，value）属于char_count，那么value=value+1；如果没有char_count的键部分含有Uj，那么将（Uj, 1）存放到char_count中；

步骤D-2：从头至尾遍历topic_list的每一项topic，设topic由汉字V1、V2、...、Vj、...、Vm构成；如果

那么在topic_list中仍保留topic，即topic是一个业务主题；否则从topic_list中删除topic，即topic不是一个业务主题；

模块E：候选业务主题与对应的XPath关联

所述模块E的实施方法如下：引入一个数据结构liststring, liststringtopic_xpath，用于存放topic_list中的候选业务主题及其与XPath的关联；从头开始遍历map_xpath_reverse，对map_xpath_reverse中的每对（XPath，XPath的内容文本），执行以下步骤：对XPath的内容文本部分中的每一项topic，如果topic出现在topic_list中，那么执行以下：如果topic不属于topic_xpath的XPath部分，那么将（topic，XPath）存放到topic_xpath中，否则将XPath加入到已存在于topic_xpath中的topic对应的XPath部分中；

模块F：HTML网页内容的抽取

所述模块F的具体实施子步骤如下：对DOM树语料库G={DOM1, DOM2, ..., DOMn}中的每一个DOMi，对DOMi中的每个节点node，执行以下步骤：

步骤F-1：如果node存在两个子节点node1和node2，其中node1的位置在node2之前，并且node1对应的内容文本存在于topic_list中，那么node1是业务主题节点，node2的内容文本为业务主题值，因此将二元组（node1的内容文本，node2的内容文本）存入结果集合W中；

步骤F-2：如果node存在两个子节点node1和node2，其中node1的位置在node2之前，并且node2对应的内容文本存在于topic_list中，那么node2的内容文本为业务主题，node1的内容文本为上述业务主题的业务主题值，因此将二元组（node2的内容文本，node1的内容文本）存入结果集合W中；

步骤F-3：如果node存在两个子节点node1和node2，其中node1的位置在node2之前，并且node1有一组子节点node11、node12、...、node1k，如果node11、node12、...、node1k的内容文本都存在于topic_list中，那么node11的内容文本、node12的内容文本、...、node1k的内容文本为业务主题，node2的子节点node21、node22、...、node2k的内容文本分别为上述业务主题的业务主题值，因此将（node11的内容文本，node21的内容文本）、（node12的内容文本，node22的内容文本）、...、（node1k的内容文本，node2k的内容文本）存入结果集合W中；

步骤F-4：如果node存在两个子节点node1和node2，其中node1的位置在node2之前，并且node2有一组子节点node21、node22、...、node2k，如果node21、node22、...、node2k的内容文本都存在于topic_list中，那么node21的内容文本、node22的内容文本、...、node2k的内容文本为业务主题，node1的子节点node11、node12、...、node1k的内容文本分别为上述业务主题的业务主题值，因此将（node21的内容文本，node11的内容文本）、（node22的内容文本，node12的内容文本）、...、（node2k的内容文本，node1k的内容文本）存入结果集合W中；

最终，输出从网页语料库抽取出的结果集合W。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中科国力（镇江）智能技术有限公司，未经中科国力（镇江）智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811511109.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种业务处理方法、系统及存储介质
下一篇：互联网信息链式存储方法、装置、计算机设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种智能化网页内容自动模糊抽取系统有效

专利文献下载