[发明专利]一种数据处理方法及装置在审

申请号：	202010411653.4	申请日：	2020-05-15
公开（公告）号：	CN111898362A	公开（公告）日：	2020-11-06
发明（设计）人：	朱斌俊	申请（专利权）人：	联想（北京）有限公司
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/216;G06F16/35;G06N20/00
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	李金
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种数据处理方法及装置，在训练用于进行人物关系抽取的机器学习模型过程中，对每个训练数据包的每条句子中的人物名称进行标准化处理，得到每条句子对应的标准化句子，计算每条标准化句子中每个词的注意力，并注意力，得到每条标准化句子的句向量，根据每个训练数据包对应的每条标准化句子的句向量，得到每个训练数据包的包向量，计算每个训练数据包的损失值和每条标准化句子的损失值，根据每条标准化句子的句向量、每个训练数据包的包向量、每个训练数据包的损失值和每条标准化句子的损失值，训练得到用于进行人物关系抽取的机器学习模型，通过人物名称的统一化和加入标准化句子的损失值来提高机器学习模型的准确度。

技术领域

本申请属于数据处理技术领域，尤其涉及一种数据处理方法及装置。

背景技术

人物关系抽取是一种信息抽取任务，例如用句子“A师从中国著名相声表演艺术家B”和目标实体名对A，B，可以抽取出A，老师，B三元组数据，该三元组数据可以表示出A和B之间的人物关系，进而可以利用三元组数据表示出的人物关系构建人物关系图谱。利用人物关系抽取技术，可以从文本中抽取人物之间关系的三元组知识。人物关系知识可以用于人物关系图谱构建、人物关系展示等。

目前人物关系抽取可通过机器学习模型完成，机器学习模型使用的任一条训练数据对应的人物关系可通过远程监督方式自动标注，根据任一条训练数据对应的人物关系和任一条训练数据的包向量，得到用于进行人物关系抽取的机器学习模型。

发明内容

有鉴于此，本申请的目的在于提供一种数据处理方法及装置，用于提高用于进行人物关系抽取的机器学习模型的准确度。技术方案如下：

一方面，本申请提供一种数据处理方法，所述方法包括：

对每个训练数据包的每条句子中的人物名称进行标准化处理，得到每条句子对应的标准化句子，所述标准化处理使得每个训练数据包的每条句子中的人物名称相同；

计算每条标准化句子中每个词之间的注意力，并根据每条标准化句子中每个词之间的注意力，得到每条标准化句子的句向量；

根据每个训练数据包对应的每条标准化句子的句向量，得到每个训练数据包的包向量；

计算每个训练数据包的损失值和每条标准化句子的损失值；

根据所述每条标准化句子的句向量、每个训练数据包的包向量、每个训练数据包的损失值和每条标准化句子的损失值，训练得到用于进行人物关系抽取的机器学习模型。

可选的，所述根据每条标准化句子中每个词之间的注意力，得到每条标准化句子的句向量包括：对每条标准化句子执行以下步骤：

根据每个词之间的注意力得到标准化句子的原始句向量；

根据适用于所有标准化句子的预设特征参数，得到所述标准化句子的预设特征向量；