[发明专利]一种基于深度学习的轨迹序列聚类方法在审
申请号: | 202111298174.7 | 申请日: | 2021-11-01 |
公开(公告)号: | CN113988203A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 王超;汪愿愿;罗实;王永恒;傅四维;董子铭 | 申请(专利权)人: | 之江实验室;浙江大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 311100 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 轨迹 序列 方法 | ||
本发明涉及数据挖掘领域,具体涉及一种基于深度学习的轨迹序列聚类方法,包括以下步骤:步骤1,预训练层:使用序列到序列的自编码器模型,学习轨迹数据的低维特征表示;步骤2,初始聚类层:对预训练层获得的轨迹特征表示执行多次K‑Means聚类算法,并选择最优聚类结果中的聚类中心作为初始的簇中心。步骤3,联合训练优化层:联合轨迹聚类和深度特征提取方法,提出结合序列到序列自编码器模型重构误差和聚类误差的优化损失函数,将轨迹特征表示映射到更加适合聚类的特征空间。
技术领域
本发明涉及数据挖掘领域,具体涉及一种基于深度学习的轨迹序列聚类方法。
背景技术
轨迹间的相似性度量是时空轨迹聚类方法的基础,大多数轨迹聚类算法将完整的轨迹拆分为段或组,并采用点匹配的方式或自定义的策略比较轨迹间的相似性,再使用广泛流行的聚类算法将相似的轨迹对象聚集为簇,这种聚类方式的准确性有待提高。深度学习的发展使得学习复杂的输入序列的特征表示成为可能,可以被应用于轨迹聚类领域来学习更加适合聚类的非线性特征表示,并获得准确性更高的聚类结果。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于深度学习的轨迹序列聚类方法,其具体技术方案如下:
一种基于深度学习的轨迹序列聚类方法,包括如下步骤:
步骤1,预训练层:使用序列到序列的自编码器模型,学习轨迹数据的低维特征表示;
步骤2,初始聚类层:对预训练层获得的轨迹特征表示执行多次K-Means聚类算法,并选择最优聚类结果中的聚类中心作为初始的簇中心;
步骤3,联合训练优化层:联合轨迹聚类和深度特征提取方法,提出结合序列到序列自编码器模型重构误差和聚类误差的优化损失函数,将轨迹特征表示映射到更加适合聚类的特征空间,并端到端获得聚类结果。
进一步的,所述步骤1,具体包括以下步骤:
步骤1.1,首先,将轨迹数据点映射到各个大小相等的空间格网,并把每个网格视为离散标记;
步骤1.2,接着,使用序列到序列的自编码器模型,将轨迹序列嵌入到可以反映其潜在路径信息的特征空间中,提取代表轨迹数据真实路径的低维向量,向量的学习方法对于非均匀、低采样率和包含噪声的轨迹数据集具有鲁棒性。
进一步的,所述步骤1.1具体为:将研究区域划分为大小相等的空间网格并把每个网格视为离散的标记,落入相同网格的轨迹点可以用同一标记来表示,这些网格视为自然语言处理中的token,每个网格都有唯一的标识,所有网格的集合组成了词汇表V。
进一步的,所述步骤1.2具体为:预训练层使用序列到序列的自编码器模型学习轨迹数据的低维特征表示,该模型的训练等效于最小化重构轨迹特征分布Py和原始轨迹分布Pr之间的KL散度,即KL(Pr||Py),对于给定的轨迹,训练的目标函数如下:
其中,是在轨迹输入模型后重构的轨迹特征yt的分布,是原始轨迹rt的空间邻近分布,用于yt的解码过程,||·||2代表网格质心坐标之间的欧几里得距离,θ是控制原始轨迹r分布的距离比例参数;
因此对于一个给定的数据集,总的重构损失是数据集中所有轨迹对象在公式(2)中误差的累加和,记为其中N是数据集的大小。
进一步的,所述步骤2具体为:
所述K-Means聚类算法的损失函数表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;浙江大学,未经之江实验室;浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111298174.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大尺寸MEMS微镜结构及制作方法
- 下一篇:一种调理血糖平衡的功能性饼干