[发明专利]基于路径摘要的链接信息提取方法在审

申请号：	201710536054.3	申请日：	2017-07-04
公开（公告）号：	CN107463617A	公开（公告）日：	2017-12-12
发明（设计）人：	吴双;竹翠	申请（专利权）人：	北京工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京思海天达知识产权代理有限公司11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	的链接信息提取方法申请(专利)号CN201710536054.3
搜索关键词：	基于路径摘要链接信息提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于路径摘要的链接信息提取方法，其特征在于：步骤如下：PSTreeBullder(SourceFile)→PSTreeGetNodeBySequence(PNNameSequencePSTree)→TargetNoExtractFromElement(TargetNode)→StructureData其中SourceFile表示源文件，PSTree表示路径摘要树，PNNameSequence表示路径节点名序列，PSTreeBuilder表示路径摘要树的构建过程，GetNodeBySequence指根据路径节点名序列获取路径摘要数的节点的过程，ExtractFromElement指的是从目标的节点TargetNode提取数据的过程；也就是说包装器实际上是：Wrapper(x)＝ExtraetFromElement(GetElement(x))其中：GetElement(x)＝GetNodeBySequence(PNNameSequence，PSTreeButlder由于PSTreeBuilder，GetNodeBySequence都是固定的流程，而ExtractFromElement在固定的场景下也具有固定的处理手段，因此包装器的生成实际上就等价于PNNameSequence的生成；而PNNameSequence的生成过程为人工提取或机器提取；人工提取的生成过程如下：将页面以原始的状态展现，提取者只需要将光标移动到HTML元素上，与该元素具有相同节点名序列的所有元素都会进入高亮状态；提取者只需要点击元素，就能够把这一组元素对应的路径节点名序列保存起来；这一组路径节点名序列就能够作为生成的规则，作用于相同模板的一系列页面上，产出结构化的数据；机器提取的生成过程如下：首先对HTML页面对应的路径摘要树进行建模，使用tag名称、平均直接字符数、子树平均字符数、平均字符比、路径长度、平均子树高度、平均高度比、平均兄弟节点数8个特征描述摘要树节点，为每个节点生成一个对应的特征向量；并使用预先训练出的随机森林模型对每一个摘要节点进行评分，选取打分最高的节点作为最终提取的目标节点；从而实现了自动提取；系统的整合优化：该部分包括从人工和自动提取得到的目标路径摘要节点对应的原始HTML元素中提取(标题，链接)二元组的方法，以及利用标签位置校准及关键字过滤方法对提取结果进行优化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710536054.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于路径摘要的链接信息提取方法在审

专利文献下载