[发明专利]一种文本纠错方法、装置、电子设备和介质有效
申请号: | 202210371375.3 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114462356B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 李晓川;赵雅倩;李仁刚;郭振华;范宝余 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/232;G06K9/62;G06V10/74 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张倩 |
地址: | 215100 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 纠错 方法 装置 电子设备 介质 | ||
本申请实施例公开了一种文本纠错方法、装置、电子设备和介质,对获取的待分析图像进行图像编码,得到图像特征;图像特征反映了待分析图像中与目标物强相关的特征。带噪文本是以文字形式对目标物进行描述。对获取的带噪文本进行文本编码,得到文本特征。按照设定的注意力机制,对图像特征和文本特征进行特征对比,得到纠错信号。纠错信号包含了文本特征和图像特征存在差异的特征,以及带噪文本所表征的文本信息。利用训练好的解码器依据纠错信号对初始文本标签进行预测,可以得到纠错后的文本信息。通过图像所表征的特征对带噪文本进行修正,可以得到包含正确信息的文本,提升了多模态任务的抗噪能力。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本纠错方法、装置、电子设备和计算机可读存储介质。
背景技术
近年来,多模态(Multi Modal,MM)成为人工智能领域中新兴的研究方向,像视觉常识推理(Visual Commonsense Reasoning,VCR)、视觉问答(Visual QuestionAnswering,VQA)等领域均成为行业重点研究课题。然而在多模态领域,现有课题基本都是假定人类语言在多模态过程中是绝对正确的。然而对现实世界中人类而言,口误在所难免。通过实验发现,将现有多模态任务中的人类文本替换为口误文本时,原有模型的性能会大幅衰减。
以依据文本确定出图像中文本所描述的物品在图像中的位置为例,经实现测试发现,当输入为标准文本时,模型可以输出正确的坐标框;当输入为带噪的文本即模拟人类语言口误所产生的文本时,模型输出的坐标框出现了错误。在真实世界中,由于口误造成的文本语言错误是在所难免的。因此对于多模态任务而言,模型对文本语言错误的抗噪能力成为本领域亟待研究的课题之一。
可见,如何提升多模态任务的抗噪能力,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种文本纠错方法、装置、电子设备和计算机可读存储介质,可以提升多模态任务的抗噪能力。
为解决上述技术问题,本申请实施例提供一种文本纠错方法,包括:
对获取的待分析图像进行图像编码,得到图像特征;
对获取的带噪文本进行文本编码,得到文本特征;
按照设定的注意力机制,对所述图像特征和所述文本特征进行特征对比,得到纠错信号;
利用训练好的解码器依据所述纠错信号对初始文本标签进行预测,得到纠错后的文本信息。
可选地,所述注意力机制包括自注意力机制和跨注意力机制;
所述按照设定的注意力机制,对所述图像特征和所述文本特征进行特征对比,得到纠错信号包括:
按照所述自注意力机制,对所述图像特征和所述文本特征进行关联性分析,得到对齐特征;其中,所述对齐特征包括所述图像特征和所述文本特征的对应关系;
按照所述自注意力机制和所述跨注意力机制,对所述对齐特征和所述文本特征进行分析,得到纠错信号。
可选地,所述按照所述自注意力机制,对所述图像特征和所述文本特征进行关联性分析,得到对齐特征包括:
按照如下公式,确定出所述图像特征和所述文本特征的自注意力向量;其中,所述自注意力向量包含所述图像特征的每维特征与所述文本特征的每维特征的关联特征;
;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210371375.3/2.html,转载请声明来源钻瓜专利网。