[发明专利]基于正则表达式组和控制逻辑的内容抽取方法无效
申请号: | 201010614485.5 | 申请日: | 2010-12-30 |
公开(公告)号: | CN102063493A | 公开(公告)日: | 2011-05-18 |
发明(设计)人: | 邓志鸿;徐潇然 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 贾晓玲 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于正则表达式组和控制逻辑的内容抽取方法,可用于网页、半结构化数据的内容定位、匹配及抽取。本发明提供的方案包括:所述方法基于正则表达式组和控制逻辑;所述方法对文档元素进行自外而内的层层定位,每一次定位包括如下要素:匹配点,触发操作,逻辑控制。本发明提供的方案有三方面的技术优势:第一,正则表达式不需要构建DOM Tree,匹配速度快;第二,用一组正则表达式并加入控制逻辑,让每个正则表达式在匹配成功时执行特定的逻辑,使得能够抽取更多形式下的内容;第三,本发明的控制逻辑的具体规则可由使用者自己定制,灵活度更大。 | ||
搜索关键词: | 基于 正则 表达式 控制 逻辑 内容 抽取 方法 | ||
【主权项】:
一种文档的内容抽取方法,所述文档为网页或半结构化数据,其特征在于,所述方法基于正则表达式组和控制逻辑;所述方法对文档元素进行自外而内的层层定位,每一次定位包括如下要素:a)匹配点:起始匹配点、结束匹配点、内部匹配点;所述匹配点是通过一组正则表达式匹配文本获得的位置,起始匹配点和结束匹配点间的文本区域为要返回的定位区域,内部匹配点用来触发操作;b)触发操作:初始化操作、先执行操作、后执行操作;所述触发操作是一组被调用的函数,其中初始化操作包括定义变量和初始化变量值,先执行操作和后执行操作分别是在结束点判断逻辑的前后调用的函数;a)逻辑控制:结束点判断逻辑、文本取舍判断逻辑;所述逻辑控制是一组返回布尔变量的函数,用来确定结束点位置和区域的取舍。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010614485.5/,转载请声明来源钻瓜专利网。