[发明专利]一种基于损失优化的实体关系联合抽取方法有效
申请号: | 202010385529.5 | 申请日: | 2020-05-09 |
公开(公告)号: | CN111581387B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 甘涛;甘云强;何艳敏 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 甘茂 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 损失 优化 实体 关系 联合 抽取 方法 | ||
本发明属于自然语言处理技术领域,具体提供一种基于损失优化的实体关系联合抽取方法,该方法针对实体和非实体的数目不平衡、实体标注存在噪声两个问题,对传统方法的损失计算部分进行优化;一方面,在损失函数中引入敏感因子,忽略训练中已经学习良好的成分,从而降低非实体损失在总体损失中的比例,让模型更加“关注”实体类的损失,以缓解实体和非实体数目不平衡问题,提高了实体识别的精度;另一方面,在损失函数中引入衰减因子,按非实体数目所占实体和非实体总数目的比例对损失函数中的非实体成分损失进行衰减,从而降低了由于标注噪声带来的损失计算误差,进一步提高了实体关系总体识别精度。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于损失优化的实体关系联合抽取方法。
背景技术
当前,由大数据驱动的智能化浪潮给金融业的发展带来了新的创新机遇,金融领域每天都会产生大量不同形式的互联网文本数据;如何准确、高效地挖掘这些金融文本中的重要信息,以提升金融服务效率是金融智能化面临的一个关键问题。在金融信息挖掘中,实体关系抽取是核心任务,其目标是从文本数据中识别出金融实体,并判断出实体间存在的语义关系。
根据抽取流程的不同,实体关系抽取方法可分为管道式方法和联合式方法两类。管道式方法将实体关系抽取任务划分为实体识别和关系抽取两个独立的子任务,对于一段输入文本,它先用实体识别模型识别文本中出现的有效实体,然后再用关系模型判断实体间的语义关系;管道式方法简单,但是存在错误传播问题,即实体模型造成的错误会直接影响下游的关系抽取的效果;另外,管道式建模方式也忽略了实体识别和关系抽取两个子任务之间的依赖关系。相比之下,联合式抽取方法对实体识别和关系抽取进行统一建模,从而克服了管道式方法的缺点。
然而由于一些客观因素的存在,现有联合式抽取方法在提高识别精度方面面临困难;一方面,由于一个句子的实体数目通常远少于非实体数目,即实体和非实体的数目客观上存在不平衡的现象,而传统方法将实体与非实体等同对待,往往导致训练的模型倾向于“关注”不重要的非实体类样本,忽略重要的实体类样本,给实体的识别精度带来负面的影响;另一方面,人工标注数据可能会引入噪声,比如部分实体被人工错误地标注为非实体,标注噪声导致模型训练错误,识别精度下降。
发明内容
本发明的目的在于针对上述现有技术的不足,提供了一种基于损失优化的实体关系联合抽取方法,采用新的损失函数计算方法,有效地提升了实体关系的识别精度。
为了达到上述目的,本发明采用的技术方案为:
一种基于损失优化的实体关系联合抽取方法,包括以下步骤:
步骤1、数据预处理;
步骤1.1、读取实体标签数据:
步骤1.1.1、对文本T,从标签文件中读取分词信息,将T分割成不同的词ti(1≤i≤Nw),Nw为文本T中词的总个数,其中标点符号视为一个词;
步骤1.1.2、对文本T中的每一个词ti,从标签文件中读取实体类型信息,生成ti的实体类型编号li:若ti被标注为某实体、则令li为该实体的实体类别编号,否则、令li=Ne+1,Ne为实体类型的总数;
步骤1.1.3、对文本T中的每一个词ti,将其实体类型编号li进行独热(one-hot)编码,得到实体标签向量yi;
步骤1.2、读取关系标签数据:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010385529.5/2.html,转载请声明来源钻瓜专利网。