[发明专利]利用无监督学习来改进文本到内容建议的方法和系统在审
申请号: | 201980044681.2 | 申请日: | 2019-05-01 |
公开(公告)号: | CN112384909A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 李骥;张星星;韦福如;周明;A·斯里瓦斯塔瓦 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N20/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 赵腾飞 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 监督 学习 改进 文本 内容 建议 方法 系统 | ||
1.一种数据处理系统,其包括:
处理器;以及
与所述处理器进行通信的存储器,所述存储器包括可执行指令,当所述可执行指令被所述处理器执行时,使得所述数据处理系统执行以下操作的功能:
访问包含从应用程序收集的未标记训练数据的数据集,所述未标记训练数据是在用户隐私约束下收集的;
将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;以及
将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型;
其中,所述受监督ML模型利用所述受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
2.根据权利要求1所述的数据处理系统,其中,所述无监督ML模型和所述受监督ML模型中的每一个模型都包括平均池化层和全连接层。
3.根据权利要求1所述的数据处理系统,其中,所述指令还使所述处理器向所述受监督ML模型应用初始化权重,所述初始化权重是通过所述无监督ML模型来获得的。
4.根据权利要求1所述的数据处理系统,其中,所述指令还使所述处理器向经训练的文本到内容建议ML模型应用工程层,以控制建议的新内容的比例。
5.根据权利要求1所述的数据处理系统,其中,所述未标记训练数据包括无序的词列表。
6.根据权利要求5所述的数据处理系统,其中:
所述无序的词列表包括至少一个被掩蔽词;以及
所述无监督ML模型生成与所述被掩蔽词相对应的预测词。
7.根据权利要求1所述的数据处理系统,其中,所述无监督ML模型生成多个预训练嵌入层,每个预训练嵌入层具有不同的矢量维度以结合不同的文本到内容建议模型来使用。
8.一种用于训练文本到内容建议ML模型的方法,所述方法包括:
访问包含从应用程序收集的未标记训练数据的数据集,所述未标记训练数据是在用户隐私约束下收集的;
将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;以及
将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型;
其中,所述受监督ML模型利用由所述受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
9.根据权利要求8所述的方法,还包括:向所述受监督ML模型应用初始化权重,所述初始化权重是通过所述无监督ML模型来获得的。
10.根据权利要求8所述的方法,还包括:向经训练的文本到内容建议ML模型应用工程层,以控制建议的新内容的比例。
11.根据权利要求8所述的方法,其中,所述无监督ML模型生成多个预训练嵌入层,每个预训练嵌入层具有不同的矢量维度以结合不同的文本到内容建议模型来使用。
12.一种其上存储有指令的非临时性计算机可读介质,当所述指令被执行时,使得可编程设备用于:
访问包含从应用程序收集的未标记训练数据的数据集,所述未标记训练数据是在用户隐私约束下收集的;
将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;以及
将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型;
其中,所述受监督ML模型利用由所述受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
13.根据权利要求12所述的非临时性计算机可读介质,其中,所述指令还使所述可编程设备向所述受监督ML模型应用初始化权重,所述初始化权重是通过所述无监督ML模型来获得的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980044681.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:测量装置
- 下一篇:用于管腔内超声成像设备的声学透明窗口