[发明专利]基于正则表达式组和控制逻辑的内容抽取方法无效

申请号：	201010614485.5	申请日：	2010-12-30
公开（公告）号：	CN102063493A	公开（公告）日：	2011-05-18
发明（设计）人：	邓志鸿;徐潇然	申请（专利权）人：	北京大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/22
代理公司：	北京万象新悦知识产权代理事务所(普通合伙) 11360	代理人：	贾晓玲
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于正则表达式控制逻辑内容抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本技术发明属于信息抽取技术，可用于网页、半结构化数据的内容定位、匹配及抽取。

背景技术

信息抽取不同于信息检索，当有一个信息需求时，信息检索只能返回相关文档，但文档不等于信息，它仅是包含想要的信息(人名、机构名等)。随着互联网信息的爆炸式增长，各种文档如网页的内容样式愈发丰富多彩，而人们所需要的信息愈发难以发现，隐藏在了各种样式的内容里，需要借助信息抽取的手段。与此同时，人们对信息抽取的要求越来越高，准确的定位、快速的获取和简单灵活的操作成为评价信息抽取工具优劣的标准。

信息抽取的研究可以追溯到上世纪80年代后期。它的主要目标是让计算机不但找到相关的文档，而且还要找到相关的内容。抽取的信息一般分为这几个方面：命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。其中，命名实体的抽取包括组织机构、人名、地名的抽取，时间、日期、钱币和百分数的抽取、专有名词的抽取、隐含指代名词和集合名词的抽取；模板内容信息的抽取是用户预先设置模板，自动抽取用户关心的详细内容，反映时间、地点、人物和发生的事件。

当前，信息抽取的主要难点在于内容本身的多变性和内容结构的复杂性。内容本身的多变性是指我们在描述同一个实体时，经常使用不同的词汇，即使用的词汇是一样的，它们的组合方式、顺序、格式也常常不一致，但是我们都明白它们是在表达同一个意思。例如，下面是三篇文章引用同一篇参考文献的格式：

“[HPY00]J.HAN，J.PEI，AND Y.YIN.Mining frequent patterns without candidate generation.In Proc.of 2000 ACMSIGMOD，pages 1-12，2000.”

“Han，J.，Pei J.，Yin，Y.(1999).Mining Frequent Patterns Without Candidate Generation.Technical Report CMPT99-12，School of Computing Science，Simon Fraser University.”

“J.Han，J.Pei，and Y.Yin.Mining frequent patterns without candidate generation.In SIGMOD′00.”

可以看到，虽然引用的是同一篇文章，但是有不同的表述方式，让机器自动地识别出这是同一篇文章存在一定的困难。文本结构的复杂性是指一篇文档中包含多块的内容，比如一个网页中有广告区域、正文区域、导航区域、推荐链接区域等，即使在一块区域中存在层层嵌套的html标签。

目前信息抽取的方法主要包括：有限状态机的方法、Wrappers包装器的方法和机器学习的方法。有限状态机的方法用来提取命名实体和关系信息，提取系统可以看成是若干FSMs(Finite State Machine)构成的一个模板，其规则设计根据具体应用来确定。机器学习的方法使用一些复杂的模型，如隐马尔科夫模型、最大熵马尔科夫模型以及条件随机场等，它们都需要在训练集上学习，操作起来也很复杂，而且得到的结果未必比简单的方法好。在针对网页及半结构化数据进行抽取时应考虑轻量级的抽取方法。Wrappers包装器是一种基于模板的方法，模板中的槽(slots)对应文档中需要抽取的字符串，为了更好的匹配要抽取的文字区域，通过定义pre-filler pattern和post-filler pattern锚定区域的起始位置和结束位置，然后通过filler pattern抽取所需的信息，更复杂的Wrappers还引入槽的序数信息以及层次嵌套信息进行匹配，可以看出Wrappers包装器更适用于对某个网站下html页面信息的抽取。针对html页面，有人提出利用DOM Trees的树形结构，通过定义从根结点到包含所需文本信息的结点的路径来搜索匹配。在Wrappers包装器匹配所需信息的过程中，通常要用到正则表达式来具体识别和抽取相应的内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010614485.5/2.html，转载请声明来源钻瓜专利网。

上一篇：微小型无人直升机自动驾驶和手动遥控飞行切换方法
下一篇：一种球形碳酸钡粉体的制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于正则表达式组和控制逻辑的内容抽取方法无效

专利文献下载