[发明专利]一种针对植物领域的非分类关系识别方法有效
申请号: | 201610041747.0 | 申请日: | 2016-01-21 |
公开(公告)号: | CN105653522B | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 赵明;杜会芳;杜亚茹;陈瑛;张家军;彭珺 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 黄家俊 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 植物 领域 分类 关系 识别 方法 | ||
本发明公开了属于计算机中文信息处理领域的一种针对植物领域的非分类关系识别方法。根据对植物领域关系的分类,对分类关系和非分类关系进行定义;获取相关词条的非结构化网页内容,作为语料并进行预处理,获得预处理模块;然后再进行基于词汇‑语法的非分类关系的初步抽取,对获得的结果,进行改进,获得改进抽取模块;最后基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块,对其进行形式化表达,获得可视性结果。该方法在对文本进行自然语言处理的基础上,直接用非分类关系词汇‑语法模式进行抽取,准确率在70%左右,取得了较好的结果,为植物领域知识图谱构建奠定了基础,且为农民提供了更专业的植物领域技术和知识。
技术领域
本发明属于计算机中文信息处理领域,特别涉及一种针对植物领域的非分类关系识别方法。
背景技术
公开号为CN104933027A的中国专利申请,公开了一种利用依存分析的开放式中文实体关系抽取方法,该方法首先对句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系词语,然后根据距离确定命名实体位置,最后进行三元组输出。但是该发明适用于大规模语料库,不仅没有涉及到网页的语义信息,而且丝毫不涉及到特定领域,实用性差。
公开号为CN103823868A的中国专利申请,公开了一种面向在线百科的事件识别方法和事件关系抽取方法,所述事件识别方法包括:从在线百科的分类体系中得到事件类分类标签;所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条,根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率,判断所述词条是否是事件类词条,其过程比较繁琐,没有有效利用大规模的非结构化和半结构化的文本信息,且涉及面较广,对特定领域的针对性差。
发明内容
针对现有技术中存在的不足,本发明的目的在于提供一种针对植物领域的非分类关系识别方法。
为实现上述目的,本发明采用如下技术方案:
一种针对植物领域的非分类关系识别方法,所述方法为:
(1)根据对植物领域关系的分类,对分类关系和非分类关系进行定义;
所述分类关系的定义为:分类关系表示概念与概念之间的上下位的关系;非分类关系的定义为:非分类关系表示除了上下位关系以外的其它关系;
所述的分类关系包括层级关系和is-a关系;非分类关系包括整体部分关系及概念之间的依赖关系、关联关系、因果关系和相似关系;比如植物领域就涉及植物生长发育的方方面面,具有农业价值的关系包括:生长规律及其与外界环境条件的关系、别名信息、地理分布、病虫害防治、土壤与营养、栽培技术、轮作套种、遗传育种和经济价值等,表现出知识量大、关系复杂多变等特点;
(2)获取相关词条的非结构化网页内容,作为语料,对语料进行预处理,获得预处理模块;
(3)对获得的预处理模块,进行基于词汇-语法的非分类关系的初步抽取,获得初步抽取模块;
(4)对获得的初步抽取模块,采用基于词表过滤和给模式添加限制的方法进行改进,获得改进抽取模块;所述的限制为单个限制或用约束组合对象表示多个限制的组合;
(5)对获得的改进抽取模块,基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块;
(6)对获得的非分类关系抽取模块,进行形式化表达,获得形式化表达模块,最终获得可视性结果。
所述步骤(2)的具体步骤为:
S1、利用语料采集脚本程序,从百度百科的植物分类下,获取词条作为语料;
所述语料采集脚本程序是根据每一个植物百科的url地址,寻找规律,一次性爬取下来;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610041747.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提取文本关键词的方法和装置
- 下一篇:一种识别率确定方法及装置