[发明专利]基于路径摘要的链接信息提取方法在审

专利信息
申请号: 201710536054.3 申请日: 2017-07-04
公开(公告)号: CN107463617A 公开(公告)日: 2017-12-12
发明(设计)人: 吴双;竹翠 申请(专利权)人: 北京工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京思海天达知识产权代理有限公司11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 的链接信息提取方法申请(专利)号CN201710536054.3
搜索关键词: 基于 路径 摘要 链接 信息 提取 方法
【主权项】:
基于路径摘要的链接信息提取方法,其特征在于:步骤如下:PSTreeBullder(SourceFile)→PSTreeGetNodeBySequence(PNNameSequencePSTree)→TargetNoExtractFromElement(TargetNode)→StructureData其中SourceFile表示源文件,PSTree表示路径摘要树,PNNameSequence表示路径节点名序列,PSTreeBuilder表示路径摘要树的构建过程,GetNodeBySequence指根据路径节点名序列获取路径摘要数的节点的过程,ExtractFromElement指的是从目标的节点TargetNode提取数据的过程;也就是说包装器实际上是:Wrapper(x)=ExtraetFromElement(GetElement(x))其中:GetElement(x)=GetNodeBySequence(PNNameSequence,PSTreeButlder由于PSTreeBuilder,GetNodeBySequence都是固定的流程,而ExtractFromElement在固定的场景下也具有固定的处理手段,因此包装器的生成实际上就等价于PNNameSequence的生成;而PNNameSequence的生成过程为人工提取或机器提取;人工提取的生成过程如下:将页面以原始的状态展现,提取者只需要将光标移动到HTML元素上,与该元素具有相同节点名序列的所有元素都会进入高亮状态;提取者只需要点击元素,就能够把这一组元素对应的路径节点名序列保存起来;这一组路径节点名序列就能够作为生成的规则,作用于相同模板的一系列页面上,产出结构化的数据;机器提取的生成过程如下:首先对HTML页面对应的路径摘要树进行建模,使用tag名称、平均直接字符数、子树平均字符数、平均字符比、路径长度、平均子树高度、平均高度比、平均兄弟节点数8个特征描述摘要树节点,为每个节点生成一个对应的特征向量;并使用预先训练出的随机森林模型对每一个摘要节点进行评分,选取打分最高的节点作为最终提取的目标节点;从而实现了自动提取;系统的整合优化:该部分包括从人工和自动提取得到的目标路径摘要节点对应的原始HTML元素中提取(标题,链接)二元组的方法,以及利用标签位置校准及关键字过滤方法对提取结果进行优化。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710536054.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top