[发明专利]基于依存句法树的知识解析系统及方法有效

专利信息
申请号: 202010997505.5 申请日: 2020-09-21
公开(公告)号: CN112651226B 公开(公告)日: 2022-03-29
发明(设计)人: 裴正奇;王树徽;朱斌斌;刘潇;段必超;于秋鑫;余志炜 申请(专利权)人: 深圳前海黑顿科技有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/247;G06F40/289;G06F16/31;G06N5/02
代理公司: 北京化育知识产权代理有限公司 11833 代理人: 涂琪顺
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 依存 句法 知识 解析 系统 方法
【说明书】:

发明提出一种基于依存句法树的知识解析系统及方法。一种基于依存句法树的知识解析系统,包括:知识库模块和解析模块。本发明提出的基于依存句法树的知识解析方法使中文语境中的知识点能够被明确定义,以供精准解析。知识库可实时动态维护,清晰可控,对于不合理的问题部分可直接定位并解决,不再像传统深度学习模型如同“黑箱子”一般不可解析。使知识解析场景不再受中文语法/句法的多样性及复杂性所局限,只要保证知识库的资源足够优质且全面,就可极大限度地满足场景应用需求。

技术领域

本发明涉及自然语言处理领域,尤其涉及一种基于依存句法树的知识解析系统及方法。

背景技术

依存句法分析是自然语言处理当中的重要组成部分。依存句法能够体现自然语言的内在逻辑规律,是一种突破语种制约、存在于各个语系的句法理论。“依存句法”的概念最早是印度的语言学家Panini在公元前4世纪提出来的,最初的意图是针对语法、句法、语义与依存形态进行分门别类的研究,1959年法国语言学家Lucien Tesniere出版的《结构句法基础》一书一直被认为是现代依存句法的理论基础,1970年Robinson基于依存句法提出了四大依存公理,为依存句法奠定了理论结构基础,这四条公理是:(1)单纯节点条件:仅包含底层叶子节点;(2)单一父节点条件:依存树中所有的非根节点都有一个且只有一个父节点;(3)独根节点条件:一颗完整的依存树只包含一个根节点,其他所有节点依赖于根节点;(4)互斥条件:依存树中兄弟节点的前驱关系和父子节点的从属关系之间是互斥的,也就是说如果两个节点之间存在着支配与被支配的关系,则它们之间可能是没有前驱关系的。依存句法分析通过建立形式化的数学模型,设计有效的算法,利用计算机分析和处理句子,将其从词序列形式转换为句法树形式,从而捕捉句子内部结构和词语之间的依存关系,以揭示其句法结构,其主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。计算机进行依存句法分析,即是对给定输入句子的词序列,分析各个词之间的搭配关系和整个句子的结构,并得到一棵依存句法分析树。依存句法分析树就是依存句法分析结果的表示形式。目前主流的依存句法研究主要集中在数据驱动的依存句法分析方法上,即在训练数据集上进行迭代学习,从而得到依存句法分析器,主要有两种主流方法:基于移进-规约的依存分析方法(Transition-based Dependency Parsing)和基于图的依存分析方法(Graph-basedDependency Parsing)。前者是将依存句法分析书的生成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列问题;后者是将依存句法分析问题转化为从完全有向图中寻找最大生成树的问题。

然而,现有技术中的依存句法分析方法存在以下问题:

(1)语言学过度的依赖“就近原则”,语言学家通过观察总结出了人类在语言组织上存在“就近”原则,也就是说人们在组织语言时会主动将修饰成分放在中心成分周围。然而自然语言不是完全按照这样一个原则存在的,比如,对于长距离依存关系的识别,因为“就近原则”实质上已经蕴含了短距离的依存关系相比较长距离的依存关系具有更大的可能性、更高的优先级,而并列结构中,通常每个成分在语义层次上是具有同等的地位,甚至可以相互交换位置也不会影响到语义关系,这就导致分析的准确性下降。

(2)通过依存句法来分析判断文本非常依赖庞大而优良的语料库,建立语料库最大的任务就是作对齐,对齐效率越高,准确率越高,用处就越大。而现有的语料库存在一些问题,例如,整体发展不平衡,主要表现在书面语语料和口语语料库数量相差悬殊,是由于口语语料的搜集和取样过程较为复杂和繁琐。语料库的准确率无法保证,在庞大的语料库中包含了很多有待修改的语句,根本原因是缺少有效的自查方法。这些问题都反映出了对于灵活、准确建立语料库的迫切需求。

发明内容

为了解决现有技术中的上述问题,本申请提出的技术方案如下:

根据本发明的一个方面,公开了一种基于依存句法树的知识解析系统,包括:知识库模块和解析模块;其中知识库模块包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海黑顿科技有限公司,未经深圳前海黑顿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010997505.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top