[发明专利]一种基于句法语义的农业领域关系抽取方法在审
申请号: | 201810766657.7 | 申请日: | 2018-07-13 |
公开(公告)号: | CN108920465A | 公开(公告)日: | 2018-11-30 |
发明(设计)人: | 陈星;陈艺燕;戴远飞;郭晨皓;张祖文 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 农业领域 文本 关系抽取 句法语义 构建 关系分类 农业知识 农业专业 人工标注 特征抽取 特征向量 分类器 语料库 除掉 建模 网站 抽取 | ||
1.一种基于句法语义的农业领域关系抽取方法,其特征在于:包括以下步骤:
步骤S1:从农业专业网站爬取农业知识相关文本,并构建农业领域的语料库;
步骤S2:抽取有效表达实体关系的特征,所述特征包括实体内容特征、词性特征、实体上下文内容特征,上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征;
步骤S3:将步骤S2抽取得到的特征数字化,构造特征向量;
步骤S4:采用支持向量机SVM算法进行模型的训练;
步骤S5:利用训练后的模型进行关系抽取测试。
2.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法,其特征在于:步骤S1具体包括以下步骤:
步骤S11:对农业文本的关系定义为7类:别名、原产地、成分、子类、荣誉称号、价值和其他;
步骤S12:爬取农业类专业网站的词条,并对爬取到的词条做交集处理,根据词条爬取互动百科上相应的农业数据;
步骤S13:对原始文本进行统一编码处理并分句,对其中的标点符号统一处理为中文格式,最后对文本进行分词处理;
步骤S14:对分词处理后的文本标注出实体,对句子中出现的所有实体进行两两组合,构造得到实体对;
步骤S15:对步骤S14得到的实体对,判断其在文本中体现出来的关系并进行关系的标注,构造出三元组(Entity1,Entity2,Relation);
步骤S16:重复步骤S13至步骤S15,得到所有句子及句子中所有的三元组,即构造完农业领域的语料库。
3.根据权利要求1所述的一种基于句法语义的农业领域关系抽取方法,其特征在于:步骤S2中,各个特征的抽取方法为:
实体内容特征抽取:选取一个已经训练好的词向量,通过查找词嵌入将每个输入的词映射到稠密向量中;一个由n个词组成的实体表示为Entity={W1,W2,....,Wn};对于n大于1的实体,表示该实体不止由一个词组成;
词性特征抽取:一个由n个词组成的实体表示为Entity={W1,W2,....,Wn},一个实体为单个或多个词组成,选择最后一个词词性代表这个实体的词性;具体操作如下:调用jieba对句子做词性标注;对实体Entity进行分词,分词结果记为{W1,W2,....,Wn};选取实体分析后的最后一个词Wn,在词性标注的结果中查找Wn的词性作为词性特征;
上文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity左边的词wpre,查找词wpre对应的词嵌入作为上文内容;
上文词性特征抽取:查找所述词性特征抽取中词性标注的结果中上文的词性;
下文词内容特征抽取:首先,对于句子S表示为S={w1,w2,...,wpre,entity,wpost,...,wm},抽取实体entity右边的词wpost,查找词wpost对应的词嵌入作为下文内容;
下文词性特征:查找所述词性特征抽取中词性标注的结果中下文的词性;
命名实体特征抽取:对句子使用命名实体进行标注,查找实体对应的命名实体类型,由于实体是由多个词组成{W1,W2,....,Wn},取最后一个词Wn的实体类型代表整个实体的类型;
父节点内容特征:对句子进行依存句法分析,在分析结果中查找实体{W1,W2,....,Wn}中Wn对应的父节点wsup,查找词wsup对应的词嵌入作为父节点内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810766657.7/1.html,转载请声明来源钻瓜专利网。