[发明专利]神经语义编解码分析方法及系统在审
申请号: | 202011102971.9 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112232084A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 王少楠;孙静远;张家俊;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经 语义 解码 分析 方法 系统 | ||
本发明涉及一种神经语义编解码分析方法及系统,所述神经语义编解码分析方法包括:训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型;通过探针任务量化解析文本表示模型描述各类语言特征的能力,得到探针任务表现;根据探针任务表现,通过消融任务以调整文本表示模型;在调整后的文本表示模型生成的句子向量的基础上来执行分析任务。本发明通过训练回归模型拟合脑神经激活水平与文本刺激的向量表示之间的映射关系,建立文本表示模型,通过探针任务量化解析文本表示模型描述各类语言特征的能力;进一步通过消融任务确认文本表示模型的鲁棒性,并以此调整文本表示模型,从而可提高在执行分析任务时的准确率。
技术领域
本发明涉及文本处理技术领域,特别涉及一种基于探针任务 和消融测试的神经语义编解码分析方法及系统。
背景技术
近年来,神经语义编、解码技术发展迅速。神经语义编码通过 预测人脑对特定语言刺激的反应来模拟脑神经的语言认知工作机理,神经 语义解码则通过解析人脑活动来揭示人读或听到的文本内容。目前神经语 义编、解码所采用的脑成像信号主要有神经电生理信号,如脑电,和神经 影像信号,如核磁共振成像。其中功能性核磁共振成像(fMRI,functional magnetic resonance imaging)具有非侵入性、无辐射暴露等优点,使其在本领域中得到了广泛的应用。
现有神经编、解码的基本范式,是拟合脑神经活动和刺激的 数量表示间的映射关系。因此,在指定脑成像范式为fMRI的前提下,神 经编解码的准确率高低很大程度上取决于如何建立刺激的数量表示。近年 来在机器学习技术的带动下,文本表示方法也在不断迭代、演进。这提供 了大量结构不同、编码特征各异的文本数量化表示模型供神经编、解码候选。由于无法有效确定具体地编解码,导致对文本处理的编解码的准确率 不稳定。
发明内容
为了解决现有技术中的上述问题,即为了快速确定编解码, 提高文本分析任务的准确率,本发明的目的在于提供一种神经语义编解码 分析方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种神经语义编解码分析方法,所述神经语义编解码分析方 法包括:
训练回归模型拟合脑神经激活水平与文本刺激的向量表示 之间的映射关系,建立文本表示模型;
通过探针任务量化解析文本表示模型描述各类语言特征的 能力,得到探针任务表现;
根据探针任务表现,通过消融任务以调整文本表示模型;
在调整后的文本表示模型生成的句子向量的基础上来执行 分析任务。
可选地,所述文本表示模型包括神经编码器模型及神经解码器 模型;
所述训练回归模型拟合脑神经激活水平与文本刺激的向量表示 之间的映射关系,建立文本表示模型,具体包括:
获取训练样本集,所述训练样本集中的训练样本包括功能性核 磁共振图像样本及对应的文本刺激、体素矩阵、句子表示矩阵;
根据所述功能性核磁共振图像及对应刺激表示的维度初始化回 归模型,设置网络参数;
基于初始化的回归模型及网络参数,根据体素矩阵及句子表示 矩阵,分别得到神经编码器模型及神经解码器模型。
可选地,所述根据体素矩阵及句子表示矩阵,得到神经编码器 模型,具体包括:
通过最小化第一目标函数,得到神经编码器模型的回归系数 We:
第一目标函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011102971.9/2.html,转载请声明来源钻瓜专利网。