[发明专利]一种结合中英知识资源的中文词语语义关系识别方法和装置有效
申请号: | 201710706832.9 | 申请日: | 2017-08-17 |
公开(公告)号: | CN107451130B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 鹿文鹏;孟凡擎;张玉腾 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F40/55 | 分类号: | G06F40/55;G06F40/30;G06F40/284 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250353 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 知识 资源 中文 词语 语义 关系 识别 方法 装置 | ||
1.一种结合中英知识资源的中文词语语义关系识别方法,其特征在于,该方法包括以下步骤:
步骤一、结合多种中文知识资源获取反义词集合,根据反义词集合判定词语间语义关系是否具有反义关系;
步骤1-1)利用HowNet中显式定义的反义关系,对给定词语A和B进行词语A的反义词集合ASETA提取操作,如果B∈ASETA,那么所述词语A和B存在反义关系,否则转步骤1-2),另外HowNet中定义的对义关系也作为一种反义关系处理;
步骤1-2)使用百度汉语提取给定词语A的反义词集合ASETA,利用哈工大同义词词林扩展版提取词语A的同义词集合SSETA,对于每个词语W∈SSETA提取其反义词并合并到ASETA,如果词语B∈ASETA,则所述词语A和B存在反义关系,否则转步骤1-3);
步骤1-3)使用百度百科提取词语A的反义词集合ASETA,如果词语B∈ASETA,则所述词语A和B存在反义关系,否则转步骤2-1);
步骤二、使用多种中文知识资源提取部分词集合,根据部分词集合判定词语间是否具有整体部分关系;
步骤2-1)利用HowNet分别提取词语A和B的部分词集合MSETA和MSETB,如果B∈MSETA或A∈MSETB,那么所述词语A和B存在整体部分关系,否则转步骤2-2);
步骤2-2)使用HowNet义原定义进行处理,在定义中含有义原“part|部件”的词语表示该词作为某个词语的部分词或部件词,定义中的“whole”属性的值指示了其整体词的义原定义,据此提取词语A和B的所有词义的义原定义集合DEFSETA和DEFSETB;使用DEFA和DEFB分别指代词语A和B的某一条词义的义原定义;如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足DEFA含有“whole”属性且其值为DEFB,或DEFB含有“whole”属性且其值为DEFA,则所述词语A和B存在整体部分关系,否则转步骤3-1);
此外,有些词语对直接利用义原定义不能有效识别出整体部分关系,可以通过泛化的方式进行处理,将上述中“whole”属性的值泛化为其上位概念,其余操作不变;
步骤三、利用多种中文知识资源提取同义词集合,基于同义词集合判定词语间是否具有同义关系;
步骤四、借助于多种中文知识资源提取下位词集合,根据下位词集合判定词语间是否具有上下位关系;
步骤五、使用汉英词典将中文词语对翻译转换为英文;
步骤5-1)利用汉英词典将词语A和B分别翻译转换为相应的英文集合ENSETA和ENSETB;
步骤六、利用英文知识资源对步骤五所得英文词语对进行词语语义关系识别,以确定原中文词语对的语义关系;
步骤6-1)对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源提取词语ENA的反义词集合ENASETA,如果词语ENB∈ENASETA,则英文词语ENA和ENB存在反义关系,也即步骤5-1)所述中文词语A和B存在反义关系,否则转步骤6-2;
步骤6-2)对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源分别提取词语ENA和ENB的部分词集合ENMSETA和ENMSETB,如果词语ENB∈ENMSETA或ENA∈ENMSETB,则英文词语ENA和ENB存在整体部分关系,也即步骤5-1)所述中文词语A和B存在整体部分关系,否则转步骤6-3);
步骤6-3)对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源提取词语ENA的同义词集合ENSSETA,如果词语ENB∈ENSSETA,则英文词语ENA和ENB存在同义关系,也即步骤5-1)所述中文词语A和B存在同义关系,否则转步骤6-4);
步骤6-4)对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源分别提取词语ENA和ENB的下位词集合ENHSETA和ENHSETB,如果词语ENB∈ENHSETA或ENA∈ENHSETB,则英文词语ENA和ENB存在上下位关系,也即步骤5-1)所述中文词语A和B存在上下位关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710706832.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种改进型三级物料分选装置
- 下一篇:一种三级物料分选装置