[发明专利]基于路径摘要的链接信息提取方法在审
申请号: | 201710536054.3 | 申请日: | 2017-07-04 |
公开(公告)号: | CN107463617A | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | 吴双;竹翠 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 的链接信息提取方法申请(专利)号CN201710536054.3 | ||
搜索关键词: | 基于 路径 摘要 链接 信息 提取 方法 | ||
【主权项】:
基于路径摘要的链接信息提取方法,其特征在于:步骤如下:PSTreeBullder(SourceFile)→PSTreeGetNodeBySequence(PNNameSequencePSTree)→TargetNoExtractFromElement(TargetNode)→StructureData其中SourceFile表示源文件,PSTree表示路径摘要树,PNNameSequence表示路径节点名序列,PSTreeBuilder表示路径摘要树的构建过程,GetNodeBySequence指根据路径节点名序列获取路径摘要数的节点的过程,ExtractFromElement指的是从目标的节点TargetNode提取数据的过程;也就是说包装器实际上是:Wrapper(x)=ExtraetFromElement(GetElement(x))其中:GetElement(x)=GetNodeBySequence(PNNameSequence,PSTreeButlder由于PSTreeBuilder,GetNodeBySequence都是固定的流程,而ExtractFromElement在固定的场景下也具有固定的处理手段,因此包装器的生成实际上就等价于PNNameSequence的生成;而PNNameSequence的生成过程为人工提取或机器提取;人工提取的生成过程如下:将页面以原始的状态展现,提取者只需要将光标移动到HTML元素上,与该元素具有相同节点名序列的所有元素都会进入高亮状态;提取者只需要点击元素,就能够把这一组元素对应的路径节点名序列保存起来;这一组路径节点名序列就能够作为生成的规则,作用于相同模板的一系列页面上,产出结构化的数据;机器提取的生成过程如下:首先对HTML页面对应的路径摘要树进行建模,使用tag名称、平均直接字符数、子树平均字符数、平均字符比、路径长度、平均子树高度、平均高度比、平均兄弟节点数8个特征描述摘要树节点,为每个节点生成一个对应的特征向量;并使用预先训练出的随机森林模型对每一个摘要节点进行评分,选取打分最高的节点作为最终提取的目标节点;从而实现了自动提取;系统的整合优化:该部分包括从人工和自动提取得到的目标路径摘要节点对应的原始HTML元素中提取(标题,链接)二元组的方法,以及利用标签位置校准及关键字过滤方法对提取结果进行优化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710536054.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种企业信息分析方法及系统
- 下一篇:一种索引创建方法和装置