[发明专利]利用无监督学习来改进文本到内容建议的方法和系统在审
申请号: | 201980044681.2 | 申请日: | 2019-05-01 |
公开(公告)号: | CN112384909A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 李骥;张星星;韦福如;周明;A·斯里瓦斯塔瓦 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N20/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 赵腾飞 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 监督 学习 改进 文本 内容 建议 方法 系统 | ||
用于训练文本到内容建议ML模型的方法和系统包括:访问包含从应用程序收集的未标记训练数据的数据集,未标记训练数据是在用户隐私约束下收集的;将ML模型应用于该数据集以生成预训练嵌入;将受监督ML模型应用于标记数据集,以通过利用受监督ML模型生成的预训练嵌入来训练由应用程序所利用的文本到内容建议ML模型。
背景技术
智能文本到内容建议服务用于各种各样的计算机程序。例如,文本到内容建议服务可以用于基于作为应用程序中的输入接收的文本,来建议图像、图标或表情符号。通常,此类应用程序可能需要遵守某些隐私和数据规定。因此,这些应用程序可能不能存储和使用输入的用户数据。事实上,它们可以利用诸如掩蔽某些词并且不保持输入文本的原始句子顺序以确保隐私之类的机制。这使得难以正确地进行文本到内容建议。
此外,经常向提供文本到内容建议的应用程序提供新内容。因为标记新内容的过程通常是耗时且费力的,所以一些新内容可能是未标记的。通常,模型包含的标记数据越多,该过程提供的建议的质量就越好。例如,当向文本到内容服务添加新的未标记内容时,将新数据作为建议进行提供的机率低于使用旧数据。这可能意味着即使向服务增加新内容,也可能长时间地不能向用户呈现新内容。
因此,需要用于智能地训练文本到内容建议模型的改进系统和方法。
发明内容
在一个通常方面,本公开内容提出了一种设备,该设备具有处理器和与所述处理器进行通信的存储器,其中所述存储器存储有可执行指令,当所述可执行指令被所述处理器执行时,使得该设备执行多个功能。所述功能可以包括:访问包含从应用程序收集的未标记训练数据的数据集,该未标记训练数据是在用户隐私约束下收集的;将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型。该受监督ML模型可以利用该受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
在另一个通常方面,本申请描述了一种用于训练文本到内容建议ML模型的方法。该方法可以包括:访问包含从应用程序收集的未标记训练数据的数据集,该未标记训练数据是在用户隐私约束下收集的;将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型。该受监督ML模型可以利用该受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
在另外的通常方面,本申请描述了一种其上存储有指令的非临时性计算机可读介质,当所述指令被执行时,使得可编程设备用于:访问包含从应用程序收集的未标记训练数据的数据集,该未标记训练数据是在用户隐私约束下收集的;将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型。该受监督ML模型可以利用该受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
提供本概括部分以便用简化的形式介绍将在以下的详细描述中进一步描述的概念选择。本概括部分并不是旨在标识本发明的关键特征或本质特征,也不是用于限制本发明的保护范围。此外,所要求保护的主题并不限于解决在本公开内容的任何部分中提到的任何或所有缺点的实施方式。
附图说明
附图仅通过示例而非限制的方式,描绘了根据本教导内容的一个或多个实施方式。在附图中,相同的附图标记表示相同或类似的元件。此外,应当理解的是,附图不一定按比例进行绘制。
图1描绘了可以在其上实现本公开内容的方面的示例性系统。
图2描绘了用于在应用中提供内容建议的简化示例性系统。
图3是用于文本到内容模型的示例性模型架构。
图4是用于在图3的模型架构中使用的预训练嵌入的无监督学习模型的示例模型架构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980044681.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:测量装置
- 下一篇:用于管腔内超声成像设备的声学透明窗口