[发明专利]文本语句中两实体的关系确定方法、装置和电子设备有效
申请号: | 202010599867.9 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111813954B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 杨杨;高志鹏;严雨;葛忠迪;张振威;严泽凡;孙寅栋;陶卓;石晓丹;刘会永 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨云云 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 语句 实体 关系 确定 方法 装置 电子设备 | ||
1.一种文本语句中两实体的关系确定方法,其特征在于,包括:
确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;
将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;
其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充;
其中,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,具体包括:
实体关系提取模型训练时,
对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量;
采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量;
基于所述去噪文本特征向量确定对应的预测两实体的关系类型;
基于所述预测两实体的关系类型和所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签确定所述任一训练轮次的损失函数;
所述采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量,具体包括:
基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重;
基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量;
基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量;
所述基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重,具体包括:
通过如下公式确定任一训练轮次中的第i个文本特征向量Si的权重ai:
其中,i=1,2,…,m,m为所述任一训练轮次中文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
对应地,所述基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量,具体包括:
通过如下公式计算所述任一训练轮次的当前迭代轮次t的衰减比例ρt:
其中,T为训练轮次的迭代轮次总次数,ρmin为预设衰减下限;
通过如下公式确定所述任一训练轮次的剩余文本特征向量的总个数m′:
其中,ρt为所述任一训练轮次的当前迭代轮次t的衰减比例,m为所述任一训练轮次中文本特征向量的总个数;
将任一训练轮次中的m个文本特征向量按照各自权重的大小由大到小依次排序得到序列,并提取所述序列中的前m′个文本特征向量作为所述任一训练轮次的剩余文本特征向量。
2.根据权利要求1所述的文本语句中两实体的关系确定方法,其特征在于,所述对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量,具体包括:
将任一样本文本语句输入BERT预训练模型,得到所述任一样本文本语句的特征向量;
将所述任一样本文本语句的特征向量和对应于所述任一样本文本语句的位置信息输入CNN模块,得到对应于所述任一样本文本语句和位置信息的文本特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010599867.9/1.html,转载请声明来源钻瓜专利网。