[发明专利]提取网页内容的方法和网页内容提取装置在审
申请号: | 201711137446.9 | 申请日: | 2017-11-16 |
公开(公告)号: | CN110020302A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 郑仲光;孟遥;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F16/957 | 分类号: | G06F16/957 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;张维克 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 叶节点 文档对象模型树 参考路径 文本内容 网页 计算机程序介质 网页内容提取 输入网页 网页内容 选择内容 匹配 集合 转换 | ||
1.一种提取网页的内容的方法,包括:
将输入网页转换为文档对象模型树;
确定所述文档对象模型树中的每个叶节点是否内容叶节点,其中如果所述叶节点在所述文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配,则所述叶节点被确定为内容叶节点;
识别所述文档对象模型树中的至少一个内容非叶节点,其中每个内容非叶节点的所有下属叶节点均为内容叶节点;
选择所述内容非叶节点中所有下属叶节点的文本内容的总长度最长的内容非叶节点;以及
提取所选择的内容非叶节点中所有下属叶节点的文本内容。
2.如权利要求1所述的方法,还包括:
将样本网页转换为样本文档对象模型树;
确定所述样本文档对象模型树中每个叶节点的模式,所述模式包括所述叶节点在相应样本文档对象模型树中的路径和所述叶节点的文本内容;
确定每个叶节点的模式与所有其它叶节点的模式的匹配次数;以及
将匹配次数低于第一阈值的叶节点的路径添加到所述第一集合中。
3.如权利要求1所述的方法,其中确定所述文档对象模型树中的每个叶节点是否内容叶节点还包括:
如果所述叶节点在所述文档对象模型树中的路径与包括至少一个参考路径的第一集合中的一个参考路径匹配或者所述叶节点在所述文档对象模型树中的路径与包括至少一个参考路径的所述第二集合中的所有参考路径都不匹配,则所述叶节点被确定为内容叶节点。
4.如权利要求3所述的方法,还包括:
将样本网页转换为样本文档对象模型树;
确定所述样本文档对象模型树中每个叶节点的模式,所述模式包括所述叶节点在相应样本文档对象模型树中的路径和所述叶节点的文本内容;
确定每个叶节点的模式与所有其它叶节点的模式的匹配次数;
将匹配次数低于第一阈值的叶节点的路径添加到所述第一集合中;以及
将匹配次数不低于第一阈值的叶节点的路径添加到所述第二集合中。
5.如权利要求1-4中任一项所述的方法,还包括:
根据所述所选择的内容非叶节点的子节点与所述子节点的各后续节点间的相关度以及所述子节点的文本内容的长度来确定所述子节点是否为标题节点。
6.如权利要求5所述的方法,其中
将所述相关度大于第二阈值并且文本内容的长度大于第三阈值的所述子节点确定为所述标题节点。
7.如权利要求1-4中任一项所述的方法,还包括:
根据所述所选择的内容非叶节点的子节点的文本内容的长度以及所述子节点在所述文档对象模型树中的路径出现的次数,确定所述子节点是否为关键字节点。
8.如权利要求7所述的方法,其中
当所述路径相同的各子节点的文本内容之和与所述路径出现的次数的比值大于第四阈值、并且所述路径出现的次数小于第五阈值时,将所述路径移除以确定所述关键字节点。
9.一种提取网页的内容的装置,包括:
至少一个处理器,被配置成执行如权利要求1至8中任一个所述的方法。
10.一种用于存储程序的计算机存储介质,该程序当被计算机执行时使得计算机执行权利要求1至8中任一个所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711137446.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页浏览方法及装置
- 下一篇:确定备选展示内容的方法、装置及存储介质