[发明专利]一种基于语义相似度的轨迹聚类方法有效
申请号: | 202011490506.7 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112465070B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 牛新征;刘鹏飞;望馨;何玲;杨胜瀚;陈冬子;刘鹏鹏;王芳姝 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 相似 轨迹 方法 | ||
本发明公开了一种基于语义相似度的轨迹聚类方法,属于聚类方法技术领域,解决现有技术中的相似性度量对数据进行挖掘时,存在着效率较低、聚类结果不合理的问题。本发明基于需要挖掘的数据的应用领域定义语义轨迹,再基于语义轨迹得到语义轨迹相似性;给定轨迹训练数据集,抽取数个轨迹,再基于定义的语义轨迹相似性采用箱型图计算相似度阈值;基于相似度阈值对轨迹集中的各轨道进行聚类。本发明用于轨迹聚类。
技术领域
一种基于语义相似度的轨迹聚类方法,用于轨迹聚类,属于聚类方法技术领域。
背景技术
相似性度量是轨迹数据分析中的一个重要研究问题,对于大多数轨迹数据挖掘问题而言,都需要进行轨迹之间的比较,因此,轨迹相似性度量的复杂性会直接影响到相关技术的运行效率和可行性。现有技术中,相似性度量大多采用动态规划实现,需要计算所有轨迹点的成对距离,具体为:动态规划需要计算每条轨迹的每一个点到其他所有轨迹的所有点的距离,时间复杂度很高,为O(),n为点的数量,当轨迹数量大量增加时,所需的时间非常可观,甚至难以计算,因此采用动态规划具有二次时间复杂度。而提出的聚类方法,根据同一轨迹簇内的所有轨迹彼此之间都有一定程度的相似,从而设计了一种基于阈值的剪枝方法,对于一条轨迹,不用计算它与其他所有轨迹的相似度,如果它与一个轨迹簇内的一条轨迹相似度非常低,则可以认为它与这个轨迹簇内的所有轨迹相似度都不会很高,相反如果它与一个轨迹簇内的一条轨迹相似度很高,则可以认为它与这个轨迹簇内的所有轨迹都有一定的相似度。通过这个策略,在保证一定的准确度的情况下,减少了大量的轨迹对之间的相似度计算,从而提高了聚类效率。但聚类算法通常从时间或空间角度对相似的轨迹进行聚类,如轨迹都是居住场所-交通场所-娱乐场所,其时间和空间上有可能都有不同,单一的只考虑时间或空间因素,轨迹之间的语义关系会被忽略,可能导致不合理的轨迹聚类结果。因此,存在着效率较低、聚类结果不合理的问题。
发明内容
针对上述研究的问题,本发明的目的在于提供一种基于语义相似度的轨迹聚类方法,解决现有技术中的相似性度量对数据进行挖掘时,存在着效率较低、聚类结果不合理的问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于语义相似度的轨迹聚类方法,如下步骤:
S1、基于需要挖掘的数据的应用领域定义语义轨迹,再基于定义的语义轨迹得到语义轨迹相似性;
S2、给定轨迹训练数据集,抽取数个轨迹,基于语义轨迹相似性采用箱型图计算相似度阈值;
S3、基于相似度阈值对轨迹集中的各轨道进行聚类。
进一步,步骤S1中需要挖掘的数据的应用领域为包括经纬度、场景标签、时间和天气信息的社交网络领域、交通领域或旅游领域。
进一步,步骤S1中得到语义轨迹相似性的步骤如下:
S1.1、给定一条语义轨迹序列其中,是轨迹的点的个数,是轨迹的第个点,由个属性(,,……,)组成,个属性中的各属性由距离属性和语义属性组成;
S1.2、基于语义轨迹中的个属性得到语义轨迹相似性。
进一步,步骤S1.1中距离属性的公式为:
语义属性的公式为:
其中,是指轨迹的第个点的第个属性,是指轨迹的第个点的第个属性,和两条轨迹的点的数量相等或不相等,是和在层次树中最近公共父节点的层数。
进一步,步骤S1.2得到的语义轨迹相似性的公式为:
其中,为空间相似度所占权重,为语义相似度所占权重,+=1。
进一步,步骤S2的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011490506.7/2.html,转载请声明来源钻瓜专利网。