[发明专利]一种基于多种中文知识资源的中文词语语义关系识别方法和装置有效
申请号: | 201710707420.7 | 申请日: | 2017-08-17 |
公开(公告)号: | CN107451123B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 鹿文鹏;孟凡擎;杜月寒 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250353 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多种 中文 知识 资源 词语 语义 关系 识别 方法 装置 | ||
1.一种基于多种中文知识资源的中文词语语义关系识别方法,其特征在于,该方法包括以下步骤:
步骤一、结合多种中文知识资源获取反义词集合,根据反义词集合判定词语间语义关系是否具有反义关系;
步骤1-1)利用HowNet中显式定义的反义关系,对给定词语A和B进行词语A的反义词集合ASETA提取操作,如果B∈ASETA,那么两词语存在反义关系,否则转步骤1-2),另外HowNet中定义的对义关系也作为一种反义关系处理;
步骤1-2)使用百度汉语提取给定词语A的反义词集合ASETA,利用哈工大同义词词林扩展版提取词语A的同义词集合SSETA,对于每个词语W∈SSETA提取其反义词并合并到ASETA,如果词语B∈ASETA,则词语A和B存在反义关系,否则转步骤1-3);
步骤1-3)使用百度百科提取词语A的反义词集合ASETA,如果词语B∈ASETA,则两词语存在反义关系,否则转步骤2-1);
步骤二、使用多种中文知识资源提取部分词集合,根据部分词集合判定词语间是否具有整体部分关系;
步骤2-1)利用HowNet分别提取词语A和B的部分词集合MSETA和MSETB,如果B∈MSETA或A∈MSETB,那么两词语存在整体部分关系,否则转步骤2-2);
步骤2-2)使用HowNet义原定义进行处理,在定义中含有义原“part|部件”的词语表示该词作为某个词语的部分词即部件,定义中的“whole”属性的值指示了其整体词的义原定义,据此提取词语A和B的义原定义集合DEFSETA和DEFSETB,如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足DEFA含有“whole”属性且其值为DEFB,或DEFB含有“whole”属性且其值为DEFA,则词语A和B存在整体部分关系,否则转步骤3-1);
此外,有些词语对直接利用义原定义不能有效识别出整体部分关系,可以通过泛化的方式进行处理,将上述中“whole”属性的值泛化为其上位概念,其余操作不变;
步骤三、利用多种中文知识资源提取同义词集合,基于同义词集合判定词语间是否具有同义关系;
步骤3-1)根据哈工大同义词词林扩展版中标有“=”的行表示同义词,获取词语A的同义词集合SSETA,如果B∈SSETA,则词语A和B存在同义关系,否则转步骤3-2);
步骤3-2)利用HowNet提取词语A的同义词集合SSETA,如果词语B∈SSETA,则词语A和B存在同义关系,否则转步骤3-3);
步骤3-3)利用百度汉语提取词语A的同义词集合SSETA,如果词语B∈SSETA,则词语A和B存在同义关系,否则转步骤3-4);
步骤3-4)根据百度百科的页面链接,分别获取词语A和B的百科链接页面集合PSETA和PSETB,如果满足则词语A和B存在同义关系,否则转步骤4-1);
步骤四、借助于多种中文知识资源提取下位词集合,根据下位词集合判定词语间是否具有上下位关系;
步骤4-1)利用HowNet分别提取词语A和B的下位词集合HSETA和HSETB,如果B∈HSETA或A∈HSETB,则词语A和B存在上下位关系,否则转步骤4-2);
步骤4-2)根据HowNet义原定义蕴含的上下位关系,分别提取词语A和B的义原定义集合DEFSETA和DEFSETB,如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足主要义原一致且或则词语A和B具有上下位关系。
2.一种基于多种中文知识资源的中文词语语义关系识别装置,其特征在于,该装置包括反义关系识别单元、整体部分关系识别单元、同义词关系识别单元、上下位关系识别单元,其中:
反义关系识别单元,用于使用多种中文知识资源获取反义词集合,根据反义词集合判定词语间语义关系是否具有反义关系;
整体部分关系识别单元,用于使用多种中文知识资源提取部分词集合,根据部分词集合判定词语间是否具有整体部分关系;
同义关系识别单元,用于利用多种中文知识资源提取同义词集合,基于同义词集合判定词语间是否具有同义关系;
上下位关系识别单元,用于借助于多种中文知识资源提取下位词集合,根据下位词集合判定词语间是否具有上下位关系;
所述反义关系识别单元还包括:
HowNet反义关系识别单元,用于利用HowNet中显式定义的反义关系,对给定词语A和B进行词语A的反义词集合ASETA提取操作,如果B∈ASETA,那么两词语存在反义关系,否则转百度汉语反义关系识别单元,另外HowNet中定义的对义关系也作为一种反义关系处理;
百度汉语反义关系识别单元,用于使用百度汉语提取给定词语A的反义词集合ASETA,利用哈工大同义词词林扩展版提取词语A的同义词集合SSETA,对于每个词语W∈SSETA提取其反义词并合并到ASETA,如果词语B∈ASETA,则词语A和B存在反义关系,否则转百度百科反义关系识别单元;
百度百科反义关系识别单元,用于使用百度百科提取词语A的反义词集合ASETA,如果词语B∈ASETA,则两词语存在反义关系,否则转整体部分关系识别单元;
所述整体部分关系识别单元还包括:
HowNet整体部分关系识别单元,用于利用HowNet分别提取词语A和B的部分词集合MSETA-和MSETB,如果B∈MSETA或A∈MSETB,那么两词语存在整体部分关系,否则转义原定义整体部分关系识别单元;
义原定义整体部分关系识别单元,用于使用HowNet义原定义进行处理,在定义中含有义原“part|部件”的词语表示该词作为某个词语的部分词即部件,定义中的“whole”属性的值指示了其整体词的义原定义,据此提取词语A和B的义原定义集合DEFSETA和DEFSETB,如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足DEFA含有“whole”属性且其值为DEFB,或DEFB含有“whole”属性且其值为DEFA,则词语A和B存在整体部分关系,否则转同义关系识别单元;
此外,在义原定义整体部分关系识别单元中,有些词语对直接利用义原定义不能有效识别出整体部分关系,可以通过泛化的方式进行处理,将上述中“whole”属性的值泛化为其上位概念,其余操作不变;
所述同义关系识别单元还包括:
词林同义关系识别单元,用于根据哈工大同义词词林扩展版中标有“=”的行表示同义词,获取词语A的同义词集合SSETA,如果B∈SSETA,则词语A和B存在同义关系,否则转HowNet同义关系识别单元;
HowNet同义关系识别单元,用于利用HowNet提取词语A的同义词集合SSETA,如果词语B∈SSETA,则词语A和B存在同义关系,否则转百度汉语同义关系识别单元;
百度汉语同义关系识别单元,用于利用百度汉语提取词语A的同义词集合SSETA,如果词语B∈SSETA,则词语A和B存在同义关系,否则转百度百科同义关系识别单元;
百度百科同义关系识别单元,用于根据百度百科的页面链接,分别获取词语A和B的百科链接页面集合PSETA和PSETB,如果满足则词语A和B存在同义关系,否则转上下位关系识别单元;
所述上下位关系识别单元还包括:
HowNet上下位关系识别单元,用于利用HowNet分别提取词语A和B的下位词集合HSETA和HSETB,如果B∈HSETA或A∈HSETB,则词语A和B存在上下位关系,否则转义原定义上下位关系识别单元;
义原定义上下位关系识别单元,用于根据HowNet义原定义蕴含的上下位关系,分别提取词语A和B的义原定义集合DEFSETA和DEFSETB,如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足主要义原一致且或则词语A和B具有上下位关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710707420.7/1.html,转载请声明来源钻瓜专利网。