[发明专利]一种面向开放领域的混合式信息抽取方法与系统在审
申请号: | 202210268483.8 | 申请日: | 2022-03-18 |
公开(公告)号: | CN114742054A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 沈国华;李锐;黄志球;蔡茂东;杨思恩;李广龙 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F16/33;G06N5/02 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 开放 领域 混合式 信息 抽取 方法 系统 | ||
1.一种面向开放领域的混合式信息抽取方法,其特征在于,包括如下步骤:
通过上下文子句分解和NLP预处理,将复合句简化并获取句子的语言属性,其中NLP预处理包括共指消解、分词、词性标注和依存解析,得到的语言属性包括依存关系、分词和词性标签;
使用自然语言处理工具识别句子中的显式短语,并使用扩展规则来识别隐式短语;扩展规则包括:第一规则,用于识别名词短语中形容词修饰语,以及与名词短语中名词并列的名词,并将形容词修饰语与并列名词组合得到隐式短语;第二规则,用于识别名词短语中核心名词,在显式名词短语之间,或显式名词短语与句子中非显式名词短语也非动词短语之间存在并列关系的名词,将并列关系的名词进行替换以得到隐式短语;
基于如下语言场景规则或其组合,提取被识别实体之间的关系,生成关系三元组:主谓宾结构规则,用于抽取出句子中主谓宾结构的主要成分,同时还根据谓语动词的形式来确定时态,包括主动时态和被动时态两种,并生成相应的关系三元组;主系表结构规则,用于抽取出句子中构成主系表结构的主要成分并生成关系三元组;开放补语规则,用于识别句中存在的补语关系,抽取补语成分表达的新含义生成关系三元组;VVP关系规则,用于识别出VVP短语,将VVP短语作为整体生成一个关系三元组;并列关系规则,用于抽取出构成并列关系的句子成分,包括名词短语之间的并列和动词短语之间的并列,生成相应的关系三元组;同位语关系规则,用于抽取句子成分和其相应的同位语成分,包括名词短语之间的同位语关系、名词短语与动词短语之间的同位语关系,添加额外动词来构成关系三元组。
2.根据权利要求1所述的面向开放领域的混合式信息抽取方法,其特征在于,所述第一规则表示为:如果通过依存解析从句子S中提取到conj(ni,p,or),amod(ni,q,ni,p)的关系;其中,ni,p代表句子S中第i个显式名词短语ENPi的第p个词项,ni,q代表ENPi的第q个词项,pq,or代表句子S中不属于显式名词短语也不属于动词短语部分的第r个词项,conj表示并列关系,amod表示形容词修饰关系;则用or替换ENPi中的ni,p,扩展为一个隐式短语。
3.根据权利要求1所述的面向开放领域的混合式信息抽取方法,其特征在于,所述第二规则表示为:如果通过依存解析从句子S中提取到conj(ni,p,nj,q),i≠j,或者conj(ni,p,or)的关系,并且ni,p,nj,q和or的词性标签都是名词;其中,ni,p代表句子S中第i个显式名词短语ENPi的第p个词项,nj,q代表句子S中第j个显式名词短语ENPj的第q个词项,or代表句子S中不属于显式名词短语也不属于动词短语部分的第r个词项,conj表示并列关系;则用nj,q或者or替换ni,p,扩展为一个隐式短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210268483.8/1.html,转载请声明来源钻瓜专利网。