[发明专利]一种面向中文专利的实体间非分类关系抽取方法在审
申请号: | 201610001335.4 | 申请日: | 2016-01-05 |
公开(公告)号: | CN105678327A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 吕学强;徐丽萍;董志安 | 申请(专利权)人: | 北京信息科技大学;北京城市系统工程研究中心 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中文 专利 实体 分类 关系 抽取 方法 | ||
1.一种面向中文专利的实体间非分类关系抽取方法,包括训练过程和测试过程,其特征在于,所述训练过程和测试过程均包括以下步骤:
步骤1):初始化概念对所在的基本关系集合。
步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词;
其中,领域关系强度DRV(DomainRelationValue)表示该实体对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现次数和概念对共现次数具有相关性。如果有非分类关系的二元组R(C1,C2),那么C1、C2和关系词R共现的概率较大。定义公式如下:
其中,wi表示句子中的词汇,C={wi,wi+1,...,wk},(i<k),集合C表示本体中的概念;f(C1,C2)表示概念对C1和C2出现的次数,α的作用是过滤C1和C2共现次数小于α的概念对,f(C1,R,C2)表示二元组关系R(C1,C2);
步骤3):进行特征选择,获得特征向量。
步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。
2.根据权利要求1所述的面向中文专利的实体间非分类关系抽取方法,其特征在于,所述步骤1)具体为:
步骤A:对语料进行分词。
步骤B:根据本体中的概念使用后向最大匹配算法标记出在句子中出现的概念实体。
步骤C:选择同一个句子中有两个或两个以上概念的句子,这些句子构成候选句子集合S={S1,S2,S3,...,Sn},其中Si={w1,w2,...,wn}。
步骤D:输入步骤C产生的集合S,遍历集合S中的句子Si并抽取Si中的概念C1的左侧Win个词汇,C2右侧Win个词汇,以及C1和C2之间的所有词汇;这些词汇和概念对C1和C2构成基本关系集合Ei;最后得到所有的基本关系集合E={E1,E2,...,En}。
步骤E:输入步骤D产生的集合E,遍历集合E中的基本关系Ei,判断Ei中的概念C1和C2在结构上是否具有包含关系,在关系上是否具有上下位关系,若具有则在集合E中删除Ei。
步骤F:遍历集合E中的基本关系Ei,判断概念C1和C2之间的词汇wi中是否含有动词,若没有则在集合E中删除Ei。
3.根据权利要求2所述的初始化概念对所在的基本关系集合方法,其特征在于,所述变量Win表示窗口值,Win设定为2。
4.根据权利要求1所述的面向中文专利的实体间非分类关系抽取方法,其特征在于,所述参数α设定为3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京城市系统工程研究中心,未经北京信息科技大学;北京城市系统工程研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610001335.4/1.html,转载请声明来源钻瓜专利网。