[发明专利]基于正则表达式组和控制逻辑的内容抽取方法无效
申请号: | 201010614485.5 | 申请日: | 2010-12-30 |
公开(公告)号: | CN102063493A | 公开(公告)日: | 2011-05-18 |
发明(设计)人: | 邓志鸿;徐潇然 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙) 11360 | 代理人: | 贾晓玲 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 控制 逻辑 内容 抽取 方法 | ||
技术领域
本技术发明属于信息抽取技术,可用于网页、半结构化数据的内容定位、匹配及抽取。
背景技术
信息抽取不同于信息检索,当有一个信息需求时,信息检索只能返回相关文档,但文档不等于信息,它仅是包含想要的信息(人名、机构名等)。随着互联网信息的爆炸式增长,各种文档如网页的内容样式愈发丰富多彩,而人们所需要的信息愈发难以发现,隐藏在了各种样式的内容里,需要借助信息抽取的手段。与此同时,人们对信息抽取的要求越来越高,准确的定位、快速的获取和简单灵活的操作成为评价信息抽取工具优劣的标准。
信息抽取的研究可以追溯到上世纪80年代后期。它的主要目标是让计算机不但找到相关的文档,而且还要找到相关的内容。抽取的信息一般分为这几个方面:命名实体的抽取、与模板有关的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。其中,命名实体的抽取包括组织机构、人名、地名的抽取,时间、日期、钱币和百分数的抽取、专有名词的抽取、隐含指代名词和集合名词的抽取;模板内容信息的抽取是用户预先设置模板,自动抽取用户关心的详细内容,反映时间、地点、人物和发生的事件。
当前,信息抽取的主要难点在于内容本身的多变性和内容结构的复杂性。内容本身的多变性是指我们在描述同一个实体时,经常使用不同的词汇,即使用的词汇是一样的,它们的组合方式、顺序、格式也常常不一致,但是我们都明白它们是在表达同一个意思。例如,下面是三篇文章引用同一篇参考文献的格式:
“[HPY00]J.HAN,J.PEI,AND Y.YIN.Mining frequent patterns without candidate generation.In Proc.of 2000 ACMSIGMOD,pages 1-12,2000.”
“Han,J.,Pei J.,Yin,Y.(1999).Mining Frequent Patterns Without Candidate Generation.Technical Report CMPT99-12,School of Computing Science,Simon Fraser University.”
“J.Han,J.Pei,and Y.Yin.Mining frequent patterns without candidate generation.In SIGMOD′00.”
可以看到,虽然引用的是同一篇文章,但是有不同的表述方式,让机器自动地识别出这是同一篇文章存在一定的困难。文本结构的复杂性是指一篇文档中包含多块的内容,比如一个网页中有广告区域、正文区域、导航区域、推荐链接区域等,即使在一块区域中存在层层嵌套的html标签。
目前信息抽取的方法主要包括:有限状态机的方法、Wrappers包装器的方法和机器学习的方法。有限状态机的方法用来提取命名实体和关系信息,提取系统可以看成是若干FSMs(Finite State Machine)构成的一个模板,其规则设计根据具体应用来确定。机器学习的方法使用一些复杂的模型,如隐马尔科夫模型、最大熵马尔科夫模型以及条件随机场等,它们都需要在训练集上学习,操作起来也很复杂,而且得到的结果未必比简单的方法好。在针对网页及半结构化数据进行抽取时应考虑轻量级的抽取方法。Wrappers包装器是一种基于模板的方法,模板中的槽(slots)对应文档中需要抽取的字符串,为了更好的匹配要抽取的文字区域,通过定义pre-filler pattern和post-filler pattern锚定区域的起始位置和结束位置,然后通过filler pattern抽取所需的信息,更复杂的Wrappers还引入槽的序数信息以及层次嵌套信息进行匹配,可以看出Wrappers包装器更适用于对某个网站下html页面信息的抽取。针对html页面,有人提出利用DOM Trees的树形结构,通过定义从根结点到包含所需文本信息的结点的路径来搜索匹配。在Wrappers包装器匹配所需信息的过程中,通常要用到正则表达式来具体识别和抽取相应的内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010614485.5/2.html,转载请声明来源钻瓜专利网。