[发明专利]一种面向中文专利的实体间非分类关系抽取方法在审
申请号: | 201610001335.4 | 申请日: | 2016-01-05 |
公开(公告)号: | CN105678327A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 吕学强;徐丽萍;董志安 | 申请(专利权)人: | 北京信息科技大学;北京城市系统工程研究中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向中文专利的实体间非分类关系抽取方法,包括以下步骤:步骤1):初始化概念对所在的基本关系集合;步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;步骤3):进行特征选择,获得特征向量;步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。本发明将中文专利本体中实体间非分类关系抽取限定为满足SAO结构的实体间关系抽取,提出句法分析特征和关系词词典特征并结合传统特征的方法,使用支持向量机进行关系抽取,从而解决了SAO结构关系抽取任务中关系实例结构正确但是语义错误的问题,该方法优于传统关系抽取方法,可以很好地满足实际应用的需要。 | ||
搜索关键词: | 一种 面向 中文 专利 实体 分类 关系 抽取 方法 | ||
【主权项】:
一种面向中文专利的实体间非分类关系抽取方法,包括训练过程和测试过程,其特征在于,所述训练过程和测试过程均包括以下步骤:步骤1):初始化概念对所在的基本关系集合。步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;其中,领域关系强度DRV(Domain Relation Value)表示该实体对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现次数和概念对共现次数具有相关性。如果有非分类关系的二元组R(C1,C2),那么C1、C2和关系词R共现的概率较大。定义公式如下:其中,wi表示句子中的词汇,C={wi,wi+1,...,wk},(i<k),集合C表示本体中的概念;f(C1,C2)表示概念对C1和C2出现的次数,α的作用是过滤C1和C2共现次数小于α的概念对,f(C1,R,C2)表示二元组关系R(C1,C2);步骤3):进行特征选择,获得特征向量。步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京城市系统工程研究中心,未经北京信息科技大学;北京城市系统工程研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610001335.4/,转载请声明来源钻瓜专利网。