[发明专利]一种面向中文专利的实体间非分类关系抽取方法在审

专利信息
申请号: 201610001335.4 申请日: 2016-01-05
公开(公告)号: CN105678327A 公开(公告)日: 2016-06-15
发明(设计)人: 吕学强;徐丽萍;董志安 申请(专利权)人: 北京信息科技大学;北京城市系统工程研究中心
主分类号: G06K9/62 分类号: G06K9/62;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 中文 专利 实体 分类 关系 抽取 方法
【说明书】:

技术领域

本发明属于中文专利中实体间非分类关系抽取技术领域,具体涉 及一种面向中文专利的实体间非分类关系抽取方法。

背景技术

本体学习的主要任务是概念获取和关系抽取。其中,关系抽取又 分为分类关系抽取和非分类关系抽取。分类关系是指概念间的上下位 关系,例如中国和国家,中国是国家的下位概念,国家是上位概念。 除分类关系之外的关系为非分类关系,例如因果关系,领域专有关系、 序列关系等。领域专有关系是非分类关系中的主要关系,同时也是某 个领域内特有的关系。比如:“混合动力车辆中使用的通用型电动机”。 其中,混合动力车辆和电动机属于使用关系。这种关系具有名词动词 名词(NVN)即第一个名词或者名词短语作为动作的主体,动词或动 词短语作为实体间的操作或关系,第二个名词或者名词短语作为动作 的客体。这种结构类似于专利文献分析中常用的SAO(SubjectAction Object)结构。

在SAO结构三元组抽取任务中,主体和客体抽取是实体抽取任 务,可利用实体抽取的方法解决。本发明主要识别满足SAO结构的 领域关系,关系词A的抽取是主要难点。传统关系抽取在抽取关系之 前需先指定抽取的关系类型,如整体-部分关系、因果关系、伴随关 系等。不同于传统关系抽取方法,SAO结构中的关系词Action是从概 念间的动词中抽取。这种抽取方法和开放式关系抽取具有一定的共同 点。开放式关系抽取不需要在抽取任务之前定义关系类型,而是在实 体所在句子中抽取关系值。因此,SAO结构关系的抽取问题可以借鉴 开放式关系抽取问题的相关研究方法。

关系抽取是信息抽取的一项子任务,用以识别文本中实体之间的 语义关系。传统的实体关系抽取方法需要有概念实体、领域专家定义 的关系类型,然后对特定的语料进行标注,通过标注获取关系模板, 从模板出发使用抽取器进行关系抽取。最后使用领域相关的评价方式 评价抽取的关系。

传统关系抽取方式需要人工制定抽取的关系类型,抽取关系的规 则受到训练语料的约束。这些限制使得传统的关系抽取方式难以适应 大规模和开放性的实体关系抽取。因此,开放式关系抽取方法应运而 生。该方法不受制于关系类型和语料,适应性强。开放式关系抽取方 法有基于特征的方法。该方法是将关系抽取任务转化为分类任务即使 用机器学习的方法来判断该关系实例是否为实体关系。分类器主要有 最大熵模型(MaximunEntropy,简称ME)、支持向量机(SupportVector Machine,简称SVM)和条件随机场模型(ConditionalRandomField, 简称CRF)等。基于特征的方法首先将关系实例通过词法、句法和统 计规律分析转换为数字特征向量,然后通过分类器对特征向量进行分 类进而识别出实体间的关系值和关系类型。该方法相对于传统方法具 有特征提取灵活、有效、不需要专家进行大量人工操作的优点。目前, 在中文专利领域的开放关系抽取的研究还比较少。

在对中文专利领域SAO结构关系抽取的研究中,传统基于规则 和机器学习的方法都不能有效解决抽取的关系实例结构上满足SAO 关系的要求,但是语义上却没有关系的问题。例如:“【发动机】#驱 动#发电机发出【交流电】”,该实例抽取到的关系为“发动机驱动交流 电”。

发明内容

针对上述现有技术中存在的问题,本发明的目的在于提供一种可 避免出现上述技术缺陷的面向中文专利的实体间非分类关系抽取方 法。

为了实现上述发明目的,本发明采用的技术方案如下:

一种面向中文专利的实体间非分类关系抽取方法,包括训练过程 和测试过程,其训练过程和测试过程均包括以下步骤:

步骤1):初始化概念对所在的基本关系集合;

步骤2):使用基于领域关系强度的关系词标记算法自动标记候 选关系词;

其中,领域关系强度DRV(DomainRelationValue)表示该实体 对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现 次数和概念对共现次数具有相关性。如果有非分类关系的二元组 R(C1,C2),那么C1、C2和关系词R共现的概率较大。定义公式如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京城市系统工程研究中心,未经北京信息科技大学;北京城市系统工程研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610001335.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top