[发明专利]实体关系抽取方法、装置、计算机设备和存储介质有效
申请号: | 201910330470.7 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110059320B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 王安然;郑孙聪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36;G06F16/35 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 抽取 方法 装置 计算机 设备 存储 介质 | ||
1.一种实体关系抽取方法,所述方法包括:
获取文本,识别所述文本中的实体;所述实体包括第一实体和第二实体;
根据所述实体的实体位置在所述文本中对所述实体进行标记,并在所述实体相应的位置插入实体标记符;所述实体标记符包括第一标记符和第二标记符;
利用预训练语言模型对标记后的文本进行编码,并根据所述第一标记符在所述文本的各字符编码向量中提取得到第一实体编码向量,以及根据所述第二标记符在所述文本的各字符编码向量中提取得到第二实体编码向量;
将所述第一实体编码向量与所述第二实体编码向量进行拼接,根据拼接后的实体编码向量确定与所述第一实体和所述第二实体对应的实体对标记向量;
根据所述实体对标记向量对应的关系向量在预设关系文件中的映射,对所述实体对标记向量进行分类,得到所述第一实体与第二实体之间的关系类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述实体的实体位置在所述文本中对所述实体进行标记,并在所述实体相应的位置插入实体标记符,包括:
识别所述实体在所述文本中的实体位置,所述实体位置包括起始位置和结束位置;
在所述起始位置插入起始标记符,以及在所述结束位置插入结束标记符;
利用所述起始标记符与所述结束标记符在文本中标记所述实体。
3.根据权利要求2所述的方法,其特征在于,所述利用预训练语言模型对标记后的文本进行编码包括:
利用所述预训练语言模型对所述起始标记符进行编码,得到起始符编码向量;
利用所述预训练语言模型对所述结束标记符进行编码,得到结束符编码向量;
根据所述实体对应的起始标记符与结束标记符,利用相应的起始符编码向量与结束符编码向量表征实体编码向量。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一实体编码向量与所述第二实体编码向量进行拼接,根据拼接后的实体编码向量确定与所述第一实体和所述第二实体对应的实体对标记向量,包括:
对所述第一实体编码向量与所述第二实体编码向量进行拼接;
通过对拼接后的实体编码向量进行非线性转换,确定与所述第一实体以及第二实体对应的实体对标记向量。
5.根据权利要求4所述的方法,其特征在于,所述第一实体编码向量包括第一起始标记符编码向量、第一结束标记符编码向量,第二实体编码向量包括第二起始标记符编码向量、第二结束标记符编码向量;所述对所述第一实体编码向量与所述第二实体编码向量进行拼接包括:
对所述第一起始标记符编码向量、第一结束标记符编码向量进行平均处理,得到平均后的第一实体编码向量;
对所述第二起始标记符编码向量、第二结束标记符编码向量进行平均处理,得到平均后的第二实体编码向量;
将所述平均后的第一实体编码向量与所述平均后的第二实体编码向量进行拼接。
6.根据权利要求4所述的方法,其特征在于,所述通过对拼接后的实体编码向量进行非线性转换,确定与所述第一实体以及第二实体对应的实体对标记向量包括:
获取预设参数,将所述预设参数与拼接后的实体向量进行组合,得到组合向量;
通过所述预训练语言模型中的激活函数对所述组合向量进行计算,得到与第一实体以及第二实体对应的实体对标记向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910330470.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于关键词共现的管廊故障分析方法
- 下一篇:一种英语翻译器