[发明专利]一种实体关系联合抽取方法在审
申请号: | 202011470863.7 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112446215A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 赵娜;曹敏;尹春林;张叶;黄祖源;何潇;聂永杰;刘斯扬;廖斌;胡昌斌;韩彤;魏龄;肖华根 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/28;G06N3/04;G06N3/08 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 关系 联合 抽取 方法 | ||
本申请提供的一种实体关系联合抽取方法包括:利用BERT学习单字符向量,通过BiLSTM输出指定维度字符向量;字符向量拼接每个字符的位置信息向量,词表向量拼接词的位置信息向量,将所有字符向量和词表向量相连;Transformer编码器学习字符特征;进行实体分类;实体关系分类特征学习;实体关系分类。本申请通过底层共享网络参数的方式,进行联合抽取,解决抽取时间和误差累计的问题;通过引入分词与词表向量,解决实体边界的问题;通过引入实体边界信息和Sigmoid的方法解决实体重叠问题;通过Sigmoid的方法解决实体关系重叠的问题,克服了现有技术的不足。
技术领域
本申请涉及自然语言处理领域技术领域,尤其涉及一种实体关系联合抽取方法。
背景技术
实体关系抽取ERE(Entity and Relation Extraction)是信息抽取的关键任务之一,主要用于从非结构化文档中自动抽取用户关注的实体和实体之间的关系,广泛应用于自然语言处理领域,如知识图谱构建、智能问答、推荐系统等。ERE是级联任务,分为两个子任务:实体抽取和实体关系抽取。
实体抽取:也称为命名实体识别,是信息抽取的一个子任务,主要是定位出非结构化文档中实体的位置及边界,再对实体进行预先定义的类别的分类,如时间、地点、人物、机构等。不同的业务场景具有不同的实体类别定义,如:《冰心散文集》的发行时间是多久?句子中包含作者“冰心”,作品“冰心散文集”等实体。
实体关系抽取:实体抽取完成后,信息抽取还需要预测任意两个实体之间的语义关系,如出生于、位于、属于等关系。一般用三元组来表示(Subject,relation,Object),如:《冰心散文集》的发行时间是多久?实体“冰心”与实体“冰心散文集”存在“创作”的关系,即(冰心,创作,冰心散文集)。
常用的实体关系抽取方法为:基于Pipeline的深度学习方法,即先进行实体抽取,然后任意组合两个实体,再进行分类的方式进行实体关系抽取;实体关系的联合抽取:通过共享网络参数和联合损失函数对模型进行训练。
目前,实体关系抽取方面还存在如下不足:1、误差累计:实体抽取的错误会影响下一步关系抽取的性能;2、实体边界问题:实体一般为词或词的组合,基于字符的实体抽取没有考虑中文的分词信息,无法进一步提升实体抽取准确率;3、实体重叠问题:一个较长实体里面包含较短长度实体,常用算法只能识别单个实体;4、关系重叠问题:一段文本中两个实体存在多种关系、一个实体与其他多个实体存在关系、较长实体与较短实体存在关系。
发明内容
本申请的目的是,创建一种基于transformer和词表的实体关系联合抽取方法,克服现有技术的不足。通过底层共享网络参数的方式,进行联合抽取,解决抽取时间和误差累计的问题;通过引入分词与词表向量,解决实体边界的问题;通过引入实体边界信息和SoftMax替换为Sigmoid的方法解决实体重叠问题;通过SoftMax替换为Sigmoid的方法解决关系重叠的问题。
本申请提供了一种实体关系联合抽取方法,包括如下步骤:
利用BERT学习单字符向量,通过BiLSTM(Bi-directional Long Short-TermMemory)输出指定维度字符向量;
字符向量拼接每个字符的位置信息向量,词表向量拼接词的位置信息向量,将所有字符向量和词表向量相连;
Transformer编码器学习字符特征;
进行实体分类;
实体关系分类特征学习;
实体关系分类。
进一步的,所述Transformer编码器学习字符特征,包括:输入实体识别Transformer编码器中得到字符嵌入表示学习,将字符向量输入关系抽取Transformer编码器中得到字符嵌入表示学习。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011470863.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于人脸识别的信件分发系统及方法
- 下一篇:一种带净化功能的出风口