[发明专利]上下位关系抽取方法、装置及计算机设备有效
申请号: | 201910506671.8 | 申请日: | 2019-06-12 |
公开(公告)号: | CN110196982B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 郑孙聪;徐程程 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 下位 关系 抽取 方法 装置 计算机 设备 | ||
本申请提供了一种上下位关系抽取方法、装置及计算机设备,通过增强字词关联性,来抽取语料中的上下位关系信息,无需预先利用规则或词典识别出候选字词,再进行两两判断,而是直接通过预先训练得到的字词关联性增强模型,即标签预测模型,直接获取待抽取语料的上下位标签序列,再通过解析标签序列的信息来获取上下位关系信息。可见,无论待抽取语料中上位词的表述多么复杂多样,本实施例都能够准确且可靠地从待抽取语料识别出上下位关系信息。
技术领域
本申请涉及数据挖掘技术领域,具体涉及一种上下位关系抽取方法、装置及计算机设备。
背景技术
在语言学概念中,概括性较强的单词叫做特定性较强的单词的上位词,特定性较强的单词叫做概括性较强的单词的下位词,可见,上位词可以是下位词的概念性描述,有助于理解下位词的含义。如“老虎是一种猫科动物”这一待抽取语料,“猫科动物”是“老虎”的上位词,“老虎”是一个下位词,“猫科动物”和“老虎”可以组成一个具有上下位关系的词语对。
目前,通常是采用基于语义向量化的挖掘方法和基于模板分类的方法,从文本语料中抽取上下位词,其中,基于语义向量化的挖掘方法具体是:获取待抽取语料中每个词语的语义向量,将各词语的语义向量输入二分类模型,确定输入的两个词语是否满足上下位关系;而基于模板分类的方法主要是从待抽取语料中抽取上位词,具体是识别待抽取语料中的名词短语,再利用待抽取语料的背景信息,确定待抽取语料中任意两个名词短语是否满足上下位关系。
然而,在实际应用中,上位词的表述复杂多样,现有的上下位关系抽取方法将无法准确识别出来,所以,如何有效、准确识别各待抽取语料的上下位关系信息成为本领域重要研究方向之一。
发明内容
有鉴于此,本申请实施例提供一种上下位关系抽取方法、装置及计算机设备,通过增强语料中字词关联性来抽取上下位关系,解决了现有技术无法准确识别语料中表述复杂的上位词和下位词的技术问题。
为实现上述目的,本申请实施例提供如下技术方案:
本申请提供了一种上下位关系抽取方法,所述方法包括:
获取待抽取语料;
将待抽取语料输入标签预测模型,得到所述待抽取语料的预测标签序列,所述标签预测模型是基于循环神经网络和自注意力机制,对训练样本进行训练得到,训练样本包括训练语料及所述训练语料包含的上下位关系信息;
从所述预测标签序列中,获取上下位关系字词属性对应的目标预测标签,所述上下位关系字词属性包括上位词字词属性和下位词字词属性;
由所述待抽取语料中所述目标预测标签对应的字词,构成所述待抽取语料的上下位关系信息。
本申请还提供了一种上下位关系抽取装置,所述装置包括:
待抽取语料获取模块,用于获取待抽取语料;
预测标签序列获取模块,用于将待抽取语料输入标签预测模型,得到所述待抽取语料的预测标签序列,所述标签预测模型是基于循环神经网络和自注意力机制,对训练样本进行训练得到,训练样本包括训练语料及所述训练语料包含的上下位关系信息;
目标预测标签获取模块,用于从所述预测标签序列中,获取上下位关系字词属性对应的目标预测标签,所述上下位关系字词属性包括上位词字词属性和下位词字词属性;
上下位关系获取模块,用于由所述待抽取语料中所述目标预测标签对应的字词,构成所述待抽取语料的上下位关系信息。
本申请还提供了一种计算机设备,计算机设备包括:
通信接口;
存储器,用于存储实现如上述的上下位关系抽取方法的程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910506671.8/2.html,转载请声明来源钻瓜专利网。