[发明专利]一种基于外延的将名词短语映射到描述逻辑概念的方法在审
申请号: | 202210530158.4 | 申请日: | 2022-05-16 |
公开(公告)号: | CN115186671A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 瞿裕忠;宋鼎;丁文韬 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/253;G06F40/268;G06F40/289;G06N5/02;G06F40/242 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 外延 名词 短语 映射 描述 逻辑 概念 方法 | ||
1.一种基于外延的将名词短语映射到描述逻辑概念的方法,其特征在于,通过名词短语的外延将名词短语映射到通过描述逻辑语言EL++表述的逻辑语言概念,生成在给定知识库上的对名词短语的理解,包括以下步骤:
步骤1,对名词短语进行分词和词形还原,对分词后的词序列,枚举所有的文本片段T,即名词短语中所有的N元模型n-gram组成的片段,以及这些文本片段对应的词形还原后的文本片段Tlemma,将文本片段索引到知识库的资源,生成文本片段到知识库中资源的映射表;
步骤2、根据名词短语的分词进行词性标注并生成句法树,从树顶开始递归地遍历整棵树,将叶子结点,即每一个词的遍历顺序作为解析顺序;
步骤3、按解析顺序,从EL++的概念T开始,用索引到的资源生成的基本概念不断细化,对每个可解析词按顺序进行解析,该过程持续直到解析完全部的词,得到名词短语映射到的描述逻辑概念:
步骤3.1、针对当前可解析词,列出所有包含该可解析词的候选文本片段;
步骤3.2、根据步骤1得到的映射表,从候选文本片段索引到对应资源,根据对应资源生成候选细化操作;
步骤3.3、对新生成的候选细化操作进行一致性筛查,筛去与句法不一致的细化操作;
步骤3.4、用3.3得到的细化操作对当前可解析词生成细化后的描述逻辑概念,对得到的描述逻辑概念进行评分,选择分数前k高的保留,然后查看是否已经解析完,即当前已被解析的可解析词是否为解析顺序中的最后一个,若否,进入步骤3.1解析下一个可解析词;若是,进入步骤3.5;
描述逻辑概念的评分函数为:
Sscore(NP,C)=wsup*Ssup(NP,C)+wmatch*Smatch(NP,C)+wsim*Ssim(NP,C)
其中Ssup为支持度评分,Smatch为匹配度评分,Ssim为简洁度评分,wsup、wmatch、wsim为对应的权重,
描述逻辑概念的支持度评分Ssup定义为描述逻辑概念生成过程中,若干次细化操作的支持集的支持度的平滑均值,对已知名词短语NP和细化操作NPI为名词短语描述的实体集合,即短语的外延,对概念C,CI为概念C描述的实体集合,对基本概念B,BI为基本概念B描述的实体集合,细化操作指对概念C,用基本概念B来修饰C中的一部分A,支持集Setsup计算公式如下:
其中,指B修饰的部分A是描述外延NPI本身,指B修饰的部分A为描述与外延存在关系的实体集合;
Ssup由以下公式计算得到,其中d表示对概念C的细化操作,是支持集的支持度:
Smatch定义为名词短语NP中能够被概念C匹配到的词的比例,计算公式如下:
Ssim定义为概念中的细化操作次数,计算公式如下:
Ssim(C)=-|{d|d∈C}|
步骤3.5、对根据解析顺序得到的所有词的描述逻辑概念,保留分数最高的作为输出Cbest,即名词短语映射到的描述逻辑概念,用于知识库对该名词短语的语义理解。
2.根据权利要求1所述的基于外延的将名词短语映射到描述逻辑概念的方法,其特征在于所述资源包括实体、字面量、属性和类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210530158.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:废弃物再生处理设备
- 下一篇:一种木质素基聚酚胺吸附材料的制备方法