[发明专利]训练模型的方法及系统和预测序列数据的方法及系统有效
申请号: | 201910349922.6 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110097193B | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 姚权铭;时鸿志 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 朱志玲;田方 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 模型 方法 系统 预测 序列 数据 | ||
提供了一种训练模型的方法及系统和预测序列数据的方法及系统。训练模型的方法及系统可获取序列训练样本集合,并基于序列训练样本集合训练机器学习模型,其中,所述机器学习模型是包括两个隐状态层的隐马尔可夫模型,其中,第一隐状态层中包括多个对象中的每个对象的个性化隐状态,第二隐状态层中包括由所述多个对象共享的多个共享隐状态。预测序列数据的方法及系统可获取对象的序列预测样本,并利用所述机器学习模型,针对所述序列预测样本执行预测来提供关于所述多个序列数据之后的下一序列数据的预测结果,其中,所述机器学习模型被事先训练为针对按时间顺序排列的一系列序列数据来预测所述一系列序列数据之后的下一序列数据。
技术领域
本申请总体说来涉及人工智能领域,更具体地讲,涉及一种训练用于预测序列数据的机器学习模型的方法及系统、以及利用机器学习模型预测序列数据的方法及系统。
背景技术
随着海量数据的出现,人工智能技术迅速发展,而机器学习是人工智能发展到一定阶段的必然产物,其致力于通过计算的手段,从大量数据中挖掘有价值的潜在信息。
通过机器学习对连续出现的序列数据(例如,移动位置数据和音乐收听序列等)进行建模来挖掘序列数据背后的规律对于各种应用场景非常重要。例如,个性化的序列行为在我们的日常生活中无处不在,模拟这种行为对很多应用场景都非常重要。例如,对轨迹数据(序列数据的一种)进行建模有助于了解用户的流动性规律,从而可便于改进骑乘共享服务和交通;对音乐收听序列进行建模有助于揭示人们行为背后的连续规律,从而可便于增强内容推荐的准确性;对用户购买商品的顺序进行建模有利于分析用户的喜好,从而可便于定向广告;诸如此类的场景还有很多,不限于此。在所有这些应用场景中,一个重要的特点是序列数据所反映出的序列模式是高度个性化的,不同的对象可能有完全不同的序列规律,因此,需要有效地对个性化序列数据进行学习的模型。
隐马尔可夫模型(HMM)是用于对序列数据进行建模的模型之一,它不仅可刻画序列模式,同时可发现隐藏的序列模式背后的状态,因此常被用于序列建模。然而,利用HMM进行序列建模常存在以下问题,例如,如果我们为每个对象训练一个HMM,那么由于针对该对象的数据太少,因此无法利用非常有限的数据训练出可靠的HMM模型;而如果我们利用所有对象的数据为所有对象训练一个HMM,则会导致训练出的模型失去个性化。目前,虽然有研究者提出根据对象的序列数据的相似性对对象进行分组,并为每个组训练一个HMM,但是,这种方法仍然会迫使不同的对象(同一组内的对象)共享一个HMM,从而导致模型仍然对于对象个性化的体现不够,进而导致利用训练出的模型预测对象序列数据时预测准确性难以满足要求。
发明内容
本发明在于解决现有HMM模型无法同时处理训练数据的稀缺性和不同对象的序列模式多样性的问题,例如,在涉及对象序列数据(例如,序列行为)预测的场景中提高序列数据的预测准确性。
根据本申请示例性实施例,提供了一种训练用于预测序列数据的机器学习模型的方法,所述方法可包括:获取序列训练样本集合,其中,所述序列训练样本集合包括针对多个对象中的每个对象的多条序列训练样本,并且每个序列训练样本包括按时间顺序排列的多个序列数据;基于所述序列训练样本集合,训练所述机器学习模型,其中,所述机器学习模型是包括两个隐状态层的隐马尔可夫模型,其中,第一隐状态层中包括所述多个对象中的每个对象的个性化隐状态,第二隐状态层中包括由所述多个对象共享的多个共享隐状态。
根据本申请另一示例性实施例,提供了一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的训练用于预测序列数据的机器学习模型的方法。
根据本申请另一示例性实施例,提供了一种包括至少一个计算装置和存储指令的至少一个存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的训练用于预测序列数据的机器学习模型的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910349922.6/2.html,转载请声明来源钻瓜专利网。