[发明专利]基于SAO结构的中文专利文本实体关系抽取方法在审

申请号：	201811202084.1	申请日：	2018-10-16
公开（公告）号：	CN109933781A	公开（公告）日：	2019-06-25
发明（设计）人：	吕学强;董志安	申请（专利权）人：	北京信息科技大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	专利文本关系抽取实体关系抽取中文句法语义三元组上下文特征处理数据传统特征词法特征分类问题结构识别有效地语料转化应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于SAO结构的中文专利文本实体关系抽取方法，其特征在于，包括：

步骤一：从专利文本中获取候选SAO三元组；

步骤二：提取候选SAO三元组的传统特征和句法语义特征。

2.根据权利要求1所述的中文专利文本实体关系抽取方法，其特征在于，步骤一具体包括：

步骤1)对专利文本进行分词和词性标注；

步骤2)对句子中的实体进行标记；

步骤3)从句子S＝{w₁，w₂，w₃，...，w_n}中取出实体对和关系词构成三元组SAO＝(E1，R，E2)，其中E1和E2表示实体对，R表示实体之间的关系词，如果句子中只有一个关系词，则转到步骤7)，如果有多个关系词，则将实体对和关系词构成的三元组表示成一个集合Set＝{SAO₁，SAO₂，SAO₃，...，SAO_i}；

步骤4)循环取出集合中的SAO三元组结构，首先计算实体对E1和E2在文档中的概率p(E1，E2)、关系词R在文档中的概率p(R)，以及实体对和关系词的组合在文档中的概率p(E1，E2，R)，计算SAO_i三元组的互信息；

步骤5)根据互信息的大小对三元组进行排序；

步骤6)如果出现一个以上的互信息大小相同，则将它们并列作为候选三元组；

步骤7)将候选三元组中的关系词标记为候选关系词；

步骤8)如果集合为空则退出。

3.根据权利要求1所述的中文专利文本实体关系抽取方法，其特征在于，所述步骤4)的互信息计算公式为：

其中，p(w_i，w_j，R)表示w_i、w_j和R在文档中出现的概率，p(w_i，w_j)表示w_i和w_j在文档中出现的概率，p(R)则表示关系R在文档中出现的概率。

4.根据权利要求1-3所述的中文专利文本实体关系抽取方法，其特征在于，所述步骤二的传统特征包括词法特征、上下文信息特征和距离特征。

5.根据权利要求1-4所述的中文专利文本实体关系抽取方法，其特征在于，所述步骤二的句法语义特征包括SAO句法关系强度特征和SAO语义角色特征SAO句法关系强度

SRS＝V(E1，R)+V(R，E2)；其中，

其中，R(E1，REL)表示实体E1和候选关系词REL之间的依存句法关系；R(REL，E2)表示候选关系词REL和实体E2之间的依存句法关系。

6.根据权利要求1-2所述的中文专利文本实体关系抽取方法，其特征在于，在所述步骤1)中，使用NLPIR汉语分词系统对专利语料进行分词。

7.根据权利要求1-2所述的中文专利文本实体关系抽取方法，其特征在于，在所述步骤2)中，采用双向最大匹配算法对句子中的实体进行标记。

8.根据权利要求1-7所述的中文专利文本实体关系抽取方法，其特征在于，所述中文专利文本实体关系抽取方法具体包括以下步骤：

(1)使用NLPIR汉语分词系统，同时在其中加入专利术语词典，对专利语料进行分词和词性标注；

(2)采用双向最大匹配算法对句子中的实体进行标记；

(3)在语料中选择包含两个以及两个以上实体的句子，组成候选句子的集合T＝{S₁，S₂，S₃，...，S_n}，其中，对于每一个句子S_i＝{w₁，w₂，w₃，...，w_n}；

(4)循环遍历集合T中的每一个句子，对于每一个句子S_i，利用专利SAO结构抽取方法，获得句子的候选三元组；

(5)筛选出满足条件的若干条句子及该句子对应的候选三元组进行标注，满足SAO结构的候选三元组标记为正例，不满足SAO结构的候选三元组标记为负例；

(6)提取词法特征；利用word2vec对(5)中的句子进行训练，得到词向量模型，然后将句子中候选三元组中的实体对和关系词分别用词向量表示；

(7)提取上下文特征；上下文特征包括两种类型的特征，第一种是设置不同的窗口值，抽取实体1、实体2和关系词的上下文词语C₀，C₁，C₂，C₃，C₄，C₅，并用词向量表示；第二种是实体对和关系词之间的所有词RLL和RLR，用词向量表示；

(8)提取距离特征；根据距离特征算法，分别计算实体1和候选关系词之间的距离distance(E1，REL)的值、候选关系词和实体2之间的距离distance(REL，E2)的值以及实体1和实体2之间的距离distance(E1，E2)的值；

(9)对集合T中的每一个句子进行依存句法分析和语义角色分析，并根据SSR和SRS的计算方法，分别计算出SAO语义角色SSR的值和SAO句法关系强度SRS的值；

(10)将(5)中标注的标签和提取的所有特征组合在一起生成训练语料和测试语料。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学，未经北京信息科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811202084.1/1.html，转载请声明来源钻瓜专利网。

上一篇：使用深度学习技术确定文档中的上下文阅读顺序
下一篇：用户情绪预测方法和装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于SAO结构的中文专利文本实体关系抽取方法在审

专利文献下载