[发明专利]一种面向中文专利的实体间非分类关系抽取方法在审
申请号: | 201610001335.4 | 申请日: | 2016-01-05 |
公开(公告)号: | CN105678327A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 吕学强;徐丽萍;董志安 | 申请(专利权)人: | 北京信息科技大学;北京城市系统工程研究中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文 专利 实体 分类 关系 抽取 方法 | ||
技术领域
本发明属于中文专利中实体间非分类关系抽取技术领域,具体涉 及一种面向中文专利的实体间非分类关系抽取方法。
背景技术
本体学习的主要任务是概念获取和关系抽取。其中,关系抽取又 分为分类关系抽取和非分类关系抽取。分类关系是指概念间的上下位 关系,例如中国和国家,中国是国家的下位概念,国家是上位概念。 除分类关系之外的关系为非分类关系,例如因果关系,领域专有关系、 序列关系等。领域专有关系是非分类关系中的主要关系,同时也是某 个领域内特有的关系。比如:“混合动力车辆中使用的通用型电动机”。 其中,混合动力车辆和电动机属于使用关系。这种关系具有名词动词 名词(NVN)即第一个名词或者名词短语作为动作的主体,动词或动 词短语作为实体间的操作或关系,第二个名词或者名词短语作为动作 的客体。这种结构类似于专利文献分析中常用的SAO(SubjectAction Object)结构。
在SAO结构三元组抽取任务中,主体和客体抽取是实体抽取任 务,可利用实体抽取的方法解决。本发明主要识别满足SAO结构的 领域关系,关系词A的抽取是主要难点。传统关系抽取在抽取关系之 前需先指定抽取的关系类型,如整体-部分关系、因果关系、伴随关 系等。不同于传统关系抽取方法,SAO结构中的关系词Action是从概 念间的动词中抽取。这种抽取方法和开放式关系抽取具有一定的共同 点。开放式关系抽取不需要在抽取任务之前定义关系类型,而是在实 体所在句子中抽取关系值。因此,SAO结构关系的抽取问题可以借鉴 开放式关系抽取问题的相关研究方法。
关系抽取是信息抽取的一项子任务,用以识别文本中实体之间的 语义关系。传统的实体关系抽取方法需要有概念实体、领域专家定义 的关系类型,然后对特定的语料进行标注,通过标注获取关系模板, 从模板出发使用抽取器进行关系抽取。最后使用领域相关的评价方式 评价抽取的关系。
传统关系抽取方式需要人工制定抽取的关系类型,抽取关系的规 则受到训练语料的约束。这些限制使得传统的关系抽取方式难以适应 大规模和开放性的实体关系抽取。因此,开放式关系抽取方法应运而 生。该方法不受制于关系类型和语料,适应性强。开放式关系抽取方 法有基于特征的方法。该方法是将关系抽取任务转化为分类任务即使 用机器学习的方法来判断该关系实例是否为实体关系。分类器主要有 最大熵模型(MaximunEntropy,简称ME)、支持向量机(SupportVector Machine,简称SVM)和条件随机场模型(ConditionalRandomField, 简称CRF)等。基于特征的方法首先将关系实例通过词法、句法和统 计规律分析转换为数字特征向量,然后通过分类器对特征向量进行分 类进而识别出实体间的关系值和关系类型。该方法相对于传统方法具 有特征提取灵活、有效、不需要专家进行大量人工操作的优点。目前, 在中文专利领域的开放关系抽取的研究还比较少。
在对中文专利领域SAO结构关系抽取的研究中,传统基于规则 和机器学习的方法都不能有效解决抽取的关系实例结构上满足SAO 关系的要求,但是语义上却没有关系的问题。例如:“【发动机】#驱 动#发电机发出【交流电】”,该实例抽取到的关系为“发动机驱动交流 电”。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可 避免出现上述技术缺陷的面向中文专利的实体间非分类关系抽取方 法。
为了实现上述发明目的,本发明采用的技术方案如下:
一种面向中文专利的实体间非分类关系抽取方法,包括训练过程 和测试过程,其训练过程和测试过程均包括以下步骤:
步骤1):初始化概念对所在的基本关系集合;
步骤2):使用基于领域关系强度的关系词标记算法自动标记候 选关系词;
其中,领域关系强度DRV(DomainRelationValue)表示该实体 对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现 次数和概念对共现次数具有相关性。如果有非分类关系的二元组 R(C1,C2),那么C1、C2和关系词R共现的概率较大。定义公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京城市系统工程研究中心,未经北京信息科技大学;北京城市系统工程研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610001335.4/2.html,转载请声明来源钻瓜专利网。