[发明专利]一种基于句法语义的农业领域关系抽取方法在审

专利信息
申请号: 201810766657.7 申请日: 2018-07-13
公开(公告)号: CN108920465A 公开(公告)日: 2018-11-30
发明(设计)人: 陈星;陈艺燕;戴远飞;郭晨皓;张祖文 申请(专利权)人: 福州大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 蔡学俊
地址: 350108 福建省福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 农业领域 文本 关系抽取 句法语义 构建 关系分类 农业知识 农业专业 人工标注 特征抽取 特征向量 分类器 语料库 除掉 建模 网站 抽取
【说明书】:

发明涉及一种基于句法语义的农业领域关系抽取方法,首先从农业专业网站爬取农业知识相关的文本。将收集得到的文本进行整理,去除掉无关文本,得到就是与农业领域相关的文本。结合事先确定的关系种类,对农业领域文本进行人工标注,构建农业领域的语料库。根据确定好的特征种类对文本进行特征抽取,构建特征向量。最后使用SVM对分类器进行建模,得到面向农业领域的关系分类模型。本发明有较好的抽取效果。

技术领域

本发明涉及自然语言处理领域,特别是一种基于句法语义的农业领域关系抽取方法。

背景技术

“大数据”和“互联网+”正在高速发展,农业信息数据呈几何式增长,中国农业网站的数量异常庞大,发展的速度是非常迅猛的。如此大量的数字化农业知识让人们应接不暇,依靠搜索引擎得到的结果大多以非结构化的形式存在,用户还需要进一步理解和筛选。在这种背景下,自然语言处理领域的信息抽取作为一种帮助人们精简信息的技术正在被广泛应用。信息抽取的目的是从非结构化文本抽取结构化或者半结构化信息,并存储在在数据库中方便用户查询,以期进一步分析和利用。关系抽取作为信息抽取领域的重要研究课题,其主要的目的是抽取句子中已标记的实体对之间的语义关系,即在实体识别的基础上确定物结构文本中实体对间的关系类别,并形成结构化的数据以便于存储和取用,例如,“<e1>鳄梨</e1>原产于<e2>中美洲</e2>,为人所知已有好几个世纪了。”,面向农业领域的关系抽取系统能自动识别实体“鳄梨”和“中美洲”的关系是原产地关系。关系抽取的技术突破了传统的必须经过人工阅读、理解的方式来获得语义关系的限制,取而代之的是语义关系的自动查找。从用户的需求层面看,关系抽取是以小粒度的文本句子中挖掘出用户所需要的语义关系信息,给用户提供更精细的服务。

关系提取在许多自然语言处理任务中起着重要的作用,如知识图谱,问答系统等。到目前为止,之前的许多关系抽取方法直接作用于原始的词序列或者独热码,所以它经常受到缺乏语义信息的限制,这使得在进行分类时容易出现错误的判断。

发明内容

有鉴于此,本发明的目的是提出一种基于句法语义的农业领域关系抽取方法,对农业领域的文本有较好的抽取效果。

本发明采用以下方案实现:一种基于句法语义的农业领域关系抽取方法,具体包括以下步骤:

步骤S1:从农业专业网站爬取农业知识相关文本,并构建农业领域的语料库;

步骤S2:抽取有效表达实体关系的特征,所述特征包括实体内容特征、词性特征、实体上下文内容特征,上文词内容特征、上文词性特征、下文词内容特征、下文词性特征、命名实体特征和父节点内容特征;

步骤S3:将步骤S2抽取得到的特征数字化,构造特征向量;

步骤S4:采用支持向量机SVM算法进行模型的训练;

步骤S5:利用训练后的模型进行关系抽取测试。

进一步地,步骤S1具体包括以下步骤:

步骤S11:对农业文本的关系定义为7类:别名、原产地、成分、子类、荣誉称号、价值和其他;

步骤S12:爬取农业类专业网站的词条,并对爬取到的词条做交集处理,根据词条爬取互动百科上相应的农业数据;

步骤S13:对原始文本进行统一编码处理并分句,对其中的标点符号统一处理为中文格式,最后对文本进行分词处理;

步骤S14:对分词处理后的文本标注出实体,对句子中出现的所有实体进行两两组合,构造得到实体对;

步骤S15:对步骤S14得到的实体对,判断其在文本中体现出来的关系并进行关系的标注,构造出三元组(Entity1,Entity2,Relation);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810766657.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top