[发明专利]机器学习处理中的跨域结构化映射在审
申请号: | 202111381967.5 | 申请日: | 2021-11-22 |
公开(公告)号: | CN114764638A | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | Y·J·昂格;E·K·巴特勒;R·安格尔;G·H·弗洛雷斯;A·梅加赫德;N·拉姆钱达尼 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 吴信刚 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 处理 中的 结构 映射 | ||
本公开涉及机器学习处理中的跨域结构化映射。一种使用执行来使不相似数据的两个或更多个语料库相关的计算设备的方法,包括从不相似数据的两个或更多个语料库中的每个接收输入数据。计算设备计算输入数据中的每个到两个或更多个编码器‑解码器模型中的传递。计算设备还从两个或更多个编码器‑解码器模型中的每个获得用于每个不同知识域的身份映射的预测。计算设备附加地计算分布距离度量作为来自两个或更多个编码器‑解码器模型中的每个的低维嵌入向量表示中的每个的输出。计算设备还基于来自两个或更多个编码器‑解码器模型中的每个的预测以及分布距离度量中的每个来计算一函数。计算设备另外更新所述两个或更多个编码器‑解码器模型。
技术领域
本发明实施例的领域涉及用于各种域实体文件类型的跨域结构化映射的机器学习模型 和系统。
背景技术
工业、科学和研究中的许多问题可以通过来自具有通过互联网、专用网络和集合(例 如,文档、图像、视频)可获得的单独域数据的其他正交域的启示来解决,从而允许针对可 能具有类似概念但在不同上下文中的域中的问题的解决方案的设计的跨域创新。然而,跨 域创新的能力可缩放性要求各个域中的专家以及在跨不同域识别这些类似模式时的强协同, 这既耗时又昂贵。
发明内容
实施例涉及跨域结构化映射机器学习模型和系统。一个实施例提供了一种使用执行来 使不相似数据的两个或更多个语料库相关的计算设备的方法,该方法包括从不相似数据的 两个或更多个语料库中的每一个语料库接收输入数据。计算设备计算输入数据中的每个到 两个或更多个编码器-解码器模型中的传递。计算设备还从两个或更多个编码器-解码器模 型中的每一个获得每个不同的知识域的身份映射的预测。计算设备附加地计算分布距离度 量作为来自两个或更多个编码器-解码器模型中的每一个的低维嵌入向量表示中的每一个 的输出。计算设备还基于来自两个或更多个编码器-解码器模型中的每一个的预测以及分布 距离度量中的每一个来计算函数。计算设备另外更新所述两个或更多个编码器-解码器模型。 实施例显著提高了研究人员简化跨学科源发现和匹配的效率,而无需对其他外部域有显著 了解。一些特征有助于发现新资产、提取和关联文档的不同组件以及将它们映射到相关提 议和其他产品的优点。一些其他特征有助于发现研究者工作在新领域中的新应用的优点, 并且通过在不同区域中重新使用来鼓励他们的工作和资产的高效用。
可以包括以下特征中的一个或多个。在一些实施例中,所述方法还可以包括由计算设 备使用相应的预测和来自不相似数据的两个或更多个语料库中的每一个的输入数据来计算 两个或更多个编码器-解码器模型中的每一个的相应的重构损失。计算设备还可以包括从两 个或更多个编码器-解码器模型中的每一个提取输入数据表示的低维嵌入向量。
在一些实施例中,所述方法可以进一步包括:所述分布距离度量是成对平均相对存活 时间(MRLT)分布距离度量,并且所述函数是联合损失函数。
在一个或多个实施例中,该方法还可包括由计算设备计算针对两个或更多个编码器-解 码器模型中的每一个的模型参数的、来自联合损失函数的损失的梯度。
在一些实施例中,所述方法可以另外包括:由所述计算设备初始化所述两个或更多个 编码器-解码器模型中的每个的权重。计算设备进一步执行把输入数据预处理、变换和提取 为固定维度特征向量。计算设备还进一步执行前馈处理以用于将输入数据的每个域内样本 前馈传递到两个或更多个编码器-解码器模型中的每个相应模型中。计算设备另外使用两个 或更多个编码器-解码器模型中的每个相应模型来为输入数据的域内样本中的每个生成相 应的输出预测。在给定输入数据的域内样本和对应的输出预测的情况下,计算设备还计算 关于两个或更多个编码器-解码器模型中的每个的联合损失函数的对应损失值。
在一个或多个实施例中,该方法可以包括由计算设备基于输入数据的每个域内样本之 间的第一相对存活时间(RLT)矩阵和第二RLT矩阵并且基于使用第一RLT矩阵和第二RLT 矩阵之间的分布距离来计算成对MRLT分布距离度量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111381967.5/2.html,转载请声明来源钻瓜专利网。