[发明专利]面向跨领域进行信息抽取的多层次特征模型和特征评价方法在审

专利信息
申请号: 201710076821.7 申请日: 2017-02-13
公开(公告)号: CN107301166A 公开(公告)日: 2017-10-27
发明(设计)人: 朱文浩;徐永林;胡冠男;丁伯汉;郭心怡;居朝友 申请(专利权)人: 上海大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 上海上大专利事务所(普通合伙)31205 代理人: 陆聪明
地址: 200444*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 领域 进行 信息 抽取 多层次 特征 模型 评价 方法
【说明书】:

技术领域

发明涉及一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法。

背景技术

信息抽取方法是从半结构化和非结构化的文档中抽取出用户感兴趣的信息并将其结构化的方法,其在信息量迅速增长的互联网内容检索中得到了广泛的应用和认可。

信息抽取的跨领域问题是指信息抽取方法对不同主题内容和不同形式文档的信息抽取任务的适应能力。领域包含了两个方面的内容:一方面是指信息主题,如,针对体育新闻的信息抽取模型难以直接应用在旅游攻略的信息抽取;另一方面是指信息的形式,如,针对商品名称的信息抽取方法难以针对网页表格进行抽取。由于不同应用领域中所涉及的知识主题与文本形式的不同,信息抽取只能在有限范围内解决一些特定的问题,当目标领域发生变化时,需要引入大量的修改工作甚至重新开发新的抽取方法。

针对这一问题,目前的研究思路主要集中在开放式信息抽取、借助半结构化信息以及基于本体的信息抽取三个方面,而这三种方式在面对领域变化,特别是文本形式等非语义特征发生变化时,还显得不够灵活,具体如下:

(1)基于开放式信息抽取方法和半结构信息辅助信息抽取方法的提取对象是所有的互联网网页或一些内容有限的半结构化信息网站提取精确度难以得到保证,无法适用于大多数信息抽取应用的实际需求。

(2)基于本体的信息抽取方法中存在的主要问题是本体模型以实体关系的确认为基础,但忽视了其他信息。另外,基于该方法的推理需要实现对某种本体语义关系的识别,因此在实现方式上受到一定的限制。

发明内容

本发明的目的在于克服现有技术存在的不足,基于文本特征(知识主题和文本形式),提供了一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,以针对跨领域信息抽取问题,建立多层次特征模型,提高信息抽取方法的领域适应能力。

为达到上述目的,本发明的构思是:结合以特征参数化为基础的信息抽取已有研究成果,从大量的相关文献中收集信息并抽取特征,构建原始特征库,尝试以特征分解的方式降低其中特征的领域相关性,使其可以快速重复使用,来建立对网页进行信息抽取的多层次特征模型,并使用不同主题和形式内容的网页样本,从多个角度对特征进行分析评价,对特征进行跨领域适应性分析,设计并实现基于多层次特征模型的信息抽取特征评价系统。通过不断地收集用户对特征的评价反馈来丰富特征库,可持续的提高信息抽取方法的领域适应能力。

根据上述发明构思,本发明采用如下技术方案:

一种面向跨领域进行信息抽取的多层次特征模型和特征评价方法,具体操作步骤如下:

步骤一,收集现有信息抽取研究文献中提到的文本特征,对其进行归纳、分类,构建原始特征库;

步骤二,构建多层次特征理论模型:利用其对具有领域性的特征进行降解,将特征分为原子特征:不包括任何其他特征的独立特征,不具有或仅具有少量的领域特点,和复合特征:由一个或多个原子特征以某种形式或逻辑构成的特征,具有领域特点;来降低特征的领域相关性;

步骤三,基于多层次特征理论模型,提出特征适应性评价方法,使用样本库来评价特征库中获得特征的跨领域适应性,以获取特征库中能够快速重复使用的特征;

步骤四,基于多层次特征理论模型以及对领域变化具有适应能力的特征库,设计信息抽取特征评价系统,通过该系统对模型中的特征进行层次化的可变性管理、对实际的网页进行分析与处理、进行网页中特征的识别匹配以及参数化操作。

优选地,所述的步骤二构建多层次特征理论模型的具体方法为:

步骤二十一,对特征库的特征进行逻辑描述,即表示特征库中原子特征和复合特征的实体信息和逻辑关系,并对归纳得到的特征库以特征分解的方式,获得领域无关或领域弱相关的同样包含原子特征和复合特征的特征集合。

步骤二十二,以特征集合中的特征为基本对象,面向特征进行建模,设计具有明确性、层次性、可扩展性的多层次特征模型。

步骤二十三,基于步骤二十二中的多层次特征模型,将跨领域信息抽取系统从概念上分为实现层、多层次特征模型层、抽取目标层三个层次,以降低信息抽取操作之间的耦合性。

优选地,所述步骤三中特征适应性评价具体方法为:

步骤三十一,利用TF-IDF思想来评估单个特征对样本和领域的重要程度。使用不同信息抽取应用的样本对特征进行适应性评价,所用到的特征评价方法主要选用单个特征的准确率、召回率、F值以及某个特征对某个领域样本的匹配度和区分度。其中,召回率是指抽取出的信息中正确的占应抽取出信息数的百分比,其计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710076821.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top