[发明专利]一种基于外延的将名词短语映射到描述逻辑概念的方法在审
申请号: | 202210530158.4 | 申请日: | 2022-05-16 |
公开(公告)号: | CN115186671A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 瞿裕忠;宋鼎;丁文韬 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/253;G06F40/268;G06F40/289;G06N5/02;G06F40/242 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 外延 名词 短语 映射 描述 逻辑 概念 方法 | ||
一种基于外延的将名词短语映射到描述逻辑概念的方法,首先穷举名词短语的所有文本片段,生成文本片段到知识库中资源的映射表;然后根据名词短语的分词、词性标注与句法树,生成解析顺序;最后按解析顺序,从EL++的概念开始,用索引到的资源生成的基本概念不断细化,直到解析完全部的词,得到名词短语映射到的描述逻辑概念。本发明通过对句法树的分析,可以自动处理复杂的含有隐式关系的名词短语可以生成的高质量的描述逻辑概念。
技术领域
本发明属于计算机技术领域,涉及自然语言处理和知识图谱技术,为一种基于外延的将名词短语映射到描述逻辑概念的方法。
背景技术
让计算机理解自然语言始终是自然语言处理领域的科研工作者不懈追求的目标。语义解析任务以将自然语言文本转化为计算机可以理解的意义表示语言为目标,是自然语言处理领域中最难的问题之一。由于自然语言的复杂性和歧义性,这个任务自提出以来就被许多研究人员关注。而知识图谱的兴起,让衔接自然语言与知识图谱的工作具有了更加关键的意义。
在自然语言中,名词短语(Noun phrase)是指语法功能相当于名词的一类短语,名词短语广泛地出现在各类语料之中,因此,理解名词短语具有重要的意义,好的名词短语解析器也可以成为其他自然语言处理工作的组件。然而,目前语义解析工作以及通过语义解析方法实现的KBQA工作通常以句子或篇章为自然语言的研究单位,少有针对性地进行名词短语的研究。名词短语中的关系信息经常隐式地出现,如“American songwriters”的语义为“songwriters who born in United States”或“songwriters whose citizenship isUnited States”,这对于人类而言容易理解,但对于计算机而言,国籍或出生地的信息却无法直接从短语文本中获得。一部分工作为了节省标注训练数据的人力,选择利用外延作为弱监督学习的训练数据。外延是相对于内涵的概念,由短语所适用于的事物构成。对于问答任务而言,外延即问句的答案实体集合。在一部分工作中,外延被用作训练数据的补充,基于外延信息的统计指标可以作为训练特征,在训练过程中对隐式的关系的确定提供了参考。然而,这类基于监督学习或弱监督学习的语义解析工作都需要一定规模的训练数据集,通过训练生成模型。而目前,专门针对名词短语的权威的公开的监督学习的训练数据集还未出现。如何使用更轻量级的方法实现针对短语的理解,值得探讨和研究。
另一方面,在利用外延将名词短语映射到知识图谱的任务上,已经出现了一些相关工作。这些工作以维基百科类别作为研究对象,由于可简单获得被描述的实体集合,这些工作通过统计指标,给出一些符合维基百科类别所描述的实体的特征。其中,Cat2Ax利用了维基百科类别中的层级结构,从中抽取匹配模式,根据统计指标和词法分数综合评分,选出分数最高的公理(Axiom),进而生成新的三元组来补全知识库;Pasca等人将复杂的名词短语作为一个头部类型和修饰语的组合,首先确定短语中的头部,接着再将其他部分划分为若干修饰语,通过统计的指标,选择在已知头部的解释的情况下对其他的修饰语的解释。总的来说,现有的这些方法将名词短语当作修饰语的组合,分别解释后简单拼接,无法处理复杂的含有嵌套关系的名词短语。
由于可能存在较为复杂的名词短语,因此需要表达能力较强的语义表示形式对其进行描述。描述逻辑主要描述本体的概念和属性,为知识图谱的构建提供便捷的表达形式,被广泛运用于本体推理工作中。其中,描述逻辑语言EL++具有多项式时间的推理的计算复杂度,在保留了较好的表达能力的同时较为轻量。EL++逻辑形式可以被递归定义为:
其中,为顶层概念名集合,A代表原子概念,即概念名,如Film;r代表原子角色,即角色名,如basedOn;O为个体名,如Alice Munro;C1和C2是一般的概念。即,在EL++中,概念C由原子概念A、原子角色r通过析取存在约束作为构造子生成。为了便于理解,将描述逻辑EL++中的概念称为描述逻辑概念。
综上所述,一种有效且高效的利用外延将短语映射到基于具体知识图谱上的逻辑形式的方法具有重要的意义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210530158.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:废弃物再生处理设备
- 下一篇:一种木质素基聚酚胺吸附材料的制备方法