[发明专利]一种面向中文专利的实体间非分类关系抽取方法在审

申请号：	201610001335.4	申请日：	2016-01-05
公开（公告）号：	CN105678327A	公开（公告）日：	2016-06-15
发明（设计）人：	吕学强;徐丽萍;董志安	申请（专利权）人：	北京信息科技大学;北京城市系统工程研究中心
主分类号：	G06K9/62	分类号：	G06K9/62;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向中文专利实体分类关系抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向中文专利的实体间非分类关系抽取方法，包括训练过程和测试过程，其特征在于，所述训练过程和测试过程均包括以下步骤：

步骤1)：初始化概念对所在的基本关系集合。

步骤2)：使用基于领域关系强度的关系词标记算法自动标记候选关系词；

其中，领域关系强度DRV(DomainRelationValue)表示该实体对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现次数和概念对共现次数具有相关性。如果有非分类关系的二元组R(C₁，C₂)，那么C₁、C₂和关系词R共现的概率较大。定义公式如下：

其中，w_i表示句子中的词汇，C＝{w_i，w_i+1，...，w_k}，(i＜k)，集合C表示本体中的概念；f(C₁，C₂)表示概念对C₁和C₂出现的次数，α的作用是过滤C₁和C₂共现次数小于α的概念对，f(C₁，R，C₂)表示二元组关系R(C₁，C₂)；

步骤3)：进行特征选择，获得特征向量。

步骤4)：采用支持向量机SVM对步骤3)获得的特征数据进行分类。

2.根据权利要求1所述的面向中文专利的实体间非分类关系抽取方法，其特征在于，所述步骤1)具体为：

步骤A：对语料进行分词。

步骤B：根据本体中的概念使用后向最大匹配算法标记出在句子中出现的概念实体。

步骤C：选择同一个句子中有两个或两个以上概念的句子，这些句子构成候选句子集合S＝{S₁，S₂，S₃，...，S_n}，其中S_i＝{w₁，w₂，...，w_n}。

步骤D：输入步骤C产生的集合S，遍历集合S中的句子S_i并抽取S_i中的概念C₁的左侧Win个词汇，C₂右侧Win个词汇，以及C₁和C₂之间的所有词汇；这些词汇和概念对C₁和C₂构成基本关系集合E_i；最后得到所有的基本关系集合E＝{E₁，E₂，...，E_n}。

步骤E：输入步骤D产生的集合E，遍历集合E中的基本关系E_i，判断E_i中的概念C₁和C₂在结构上是否具有包含关系，在关系上是否具有上下位关系，若具有则在集合E中删除E_i。

步骤F：遍历集合E中的基本关系E_i，判断概念C₁和C₂之间的词汇w_i中是否含有动词，若没有则在集合E中删除E_i。

3.根据权利要求2所述的初始化概念对所在的基本关系集合方法，其特征在于，所述变量Win表示窗口值，Win设定为2。

4.根据权利要求1所述的面向中文专利的实体间非分类关系抽取方法，其特征在于，所述参数α设定为3。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京城市系统工程研究中心，未经北京信息科技大学;北京城市系统工程研究中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610001335.4/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载