[发明专利]基于关系表的可配置信息抽取方法有效
申请号: | 201510306130.2 | 申请日: | 2015-06-05 |
公开(公告)号: | CN104881488B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 滕晓程;陈茂榕;邵明路;周晔;孟凡军 | 申请(专利权)人: | 焦点科技股份有限公司;东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙)32249 | 代理人: | 陈建和 |
地址: | 210003 江苏省南京市高新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于关系表的可配置信息抽取方法,首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学习相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体;2)信息抽取规则集生成,所需信息的抽取规则集合分成两部分人工构建的抽取规则和通过机器学习自动生成的规则;3)数据抽取对网页上信息的抽取和结果的持久化的工作根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,再使用训练好的模型对其进行分类。 | ||
搜索关键词: | 基于 关系 配置 信息 抽取 方法 | ||
【主权项】:
一种基于关系表的可配置信息抽取方法,其特征是步骤如下:首先用结构化的形式对信息抽取任务进行定义,然后采取人工方式和机器学习相结合的方法,构建抽取规则,从而对目标页面进行抽取;1)信息抽取用户接口:所述用户接口让用户以表格化的形式表达信息抽取需求,包括对信息抽取的主体,即信息抽取表的主键的定义和对信息抽取表中各种属性的定义;主键和属性的定义的方式采用人工直接构建抽取规则;所述的抽取方法中,用户使用类SQL语言创建信息抽取表,通过信息抽取表的形式定义所要抽取的信息,为信息抽取表定义主键和属性;信息抽取表的主键即所要抽取的信息的主体,是网页中的任何信息或网站本身;属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词;2)信息抽取规则集生成,所需信息的抽取规则集合为人工构建的抽取规则;人工构建的抽取规则直接通过正则表达式和CSS选择器编写,在信息抽取表创建时用户直接对于所述属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征,先从一部分网页中抽取其对应特征的一组特征值样本,然后对样本进行人工标注;再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律,即为对应信息的抽取规则;人工标注样本的过程就是构建样本中属性的特征到属性值的映射的过程;3)数据抽取:对网页上信息的抽取和结果的持久化的工作:根据用户配置的信息抽取表对某一网页抽取信息时,分别对每个属性的内容进行抽取,根据不同属性抽取规则的不同,抽取过程能够分别直接按规则对网页上的内容进行抽取和先从页面中抽取对应的特征值,再使用训练好的模型对其进行分类;抽取的结果以结构化的形式存储到数据库中,与用户定义的信息抽取表对应;对于需要通过特征来定义的属性而言,不同特征值的组合蕴含了不同的属性值,而不同特征值的组合到属性值之间的映射规则即为该属性对应的抽取规则;而对于部分属性的抽取,使用机器学习的方法自动生成抽取规则,则通过关键词特征来定义:通过网页上的一些关键词特征来综合判别网站是否为某类网站,这些关键词特征定义了属性的内涵;通过对抽取的特征样本进行人工标注,使用机器学习的方法自动生成对应的抽取规则;信息抽取用户接口中预定义一些常用的抽取函数,包括直接抽取规则的函数和抽取特征的函数,用户或根据特定需求自定义规则进行抽取;在对于提供旅游销售的网站,从描述旅游线路的网页上抽取旅游线路信息时,线路作为表的主体,在同一网站或类似网站中,线路价格,描述属性的位置、格式是固定的,所以能够从网页中直接获取;通过正则表达式和CSS选择器进行人工构建抽取规则的方法,CSS选择器是对HTML页面中的元素实现一对一,一对多或者多对一的控制。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司;东南大学,未经焦点科技股份有限公司;东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510306130.2/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置