[发明专利]基于正则表达式组和控制逻辑的内容抽取方法无效

专利信息
申请号: 201010614485.5 申请日: 2010-12-30
公开(公告)号: CN102063493A 公开(公告)日: 2011-05-18
发明(设计)人: 邓志鸿;徐潇然 申请(专利权)人: 北京大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/22
代理公司: 北京万象新悦知识产权代理事务所(普通合伙) 11360 代理人: 贾晓玲
地址: 100871*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 正则 表达式 控制 逻辑 内容 抽取 方法
【说明书】:

技术领域

本技术发明属于信息抽取技术,可用于网页、半结构化数据的内容定位、匹配及抽取。

背景技术

信息抽取不同于信息检索,当有一个信息需求时,信息检索只能返回相关文档,但文档不等于信息,它仅是包含想要的信息(人名、机构名等)。随着互联网信息的爆炸式增长,各种文档如网页的内容样式愈发丰富多彩,而人们所需要的信息愈发难以发现,隐藏在了各种样式的内容里,需要借助信息抽取的手段。与此同时,人们对信息抽取的要求越来越高,准确的定位、快速的获取和简单灵活的操作成为评价信息抽取工具优劣的标准。

信息抽取的研究可以追溯到上世纪80年代后期。它的主要目标是让计算机不但找到相关的文档,而且还要找到相关的内容。抽取的信息一般分为这几个方面:命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。其中,命名实体的抽取包括组织机构、人名、地名的抽取,时间、日期、钱币和百分数的抽取、专有名词的抽取、隐含指代名词和集合名词的抽取;模板内容信息的抽取是用户预先设置模板,自动抽取用户关心的详细内容,反映时间、地点、人物和发生的事件。

当前,信息抽取的主要难点在于内容本身的多变性和内容结构的复杂性。内容本身的多变性是指我们在描述同一个实体时,经常使用不同的词汇,即使用的词汇是一样的,它们的组合方式、顺序、格式也常常不一致,但是我们都明白它们是在表达同一个意思。例如,下面是三篇文章引用同一篇参考文献的格式:

“[HPY00]J.HAN,J.PEI,AND Y.YIN.Mining frequent patterns without candidate generation.In Proc.of 2000 ACMSIGMOD,pages 1-12,2000.”

“Han,J.,Pei J.,Yin,Y.(1999).Mining Frequent Patterns Without Candidate Generation.Technical Report CMPT99-12,School of Computing Science,Simon Fraser University.”

“J.Han,J.Pei,and Y.Yin.Mining frequent patterns without candidate generation.In SIGMOD′00.”

可以看到,虽然引用的是同一篇文章,但是有不同的表述方式,让机器自动地识别出这是同一篇文章存在一定的困难。文本结构的复杂性是指一篇文档中包含多块的内容,比如一个网页中有广告区域、正文区域、导航区域、推荐链接区域等,即使在一块区域中存在层层嵌套的html标签。

目前信息抽取的方法主要包括:有限状态机的方法、Wrappers包装器的方法和机器学习的方法。有限状态机的方法用来提取命名实体和关系信息,提取系统可以看成是若干FSMs(Finite State Machine)构成的一个模板,其规则设计根据具体应用来确定。机器学习的方法使用一些复杂的模型,如隐马尔科夫模型、最大熵马尔科夫模型以及条件随机场等,它们都需要在训练集上学习,操作起来也很复杂,而且得到的结果未必比简单的方法好。在针对网页及半结构化数据进行抽取时应考虑轻量级的抽取方法。Wrappers包装器是一种基于模板的方法,模板中的槽(slots)对应文档中需要抽取的字符串,为了更好的匹配要抽取的文字区域,通过定义pre-filler pattern和post-filler pattern锚定区域的起始位置和结束位置,然后通过filler pattern抽取所需的信息,更复杂的Wrappers还引入槽的序数信息以及层次嵌套信息进行匹配,可以看出Wrappers包装器更适用于对某个网站下html页面信息的抽取。针对html页面,有人提出利用DOM Trees的树形结构,通过定义从根结点到包含所需文本信息的结点的路径来搜索匹配。在Wrappers包装器匹配所需信息的过程中,通常要用到正则表达式来具体识别和抽取相应的内容。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010614485.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top