[发明专利]一种利用社交媒体挖掘人类活动时空模式的方法在审
申请号: | 201710883260.1 | 申请日: | 2017-09-26 |
公开(公告)号: | CN107908636A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 王艳东;高露妹;王腾 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62;G06Q50/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 社交 媒体 挖掘 人类 活动 时空 模式 方法 | ||
技术领域
本发明涉及人类移动规律挖掘技术领域,尤其涉及一种利用社交媒体挖掘人类活动时空 模式的方法。
背景技术
时间地理学是一种研究在各种制约条件下人的行为的时空特征的研究方法,以时空地理 框架的方式展示出来,该框架整合了时间(t)和空间(x,y)三个维度。空间维度展示了人 类移动在位置上的变化,时间维度展示了人类移动在时间上的序列性。
包含于时间地理框架中的时空路径概念是将人类的活动序列点以线段的方式连接起来, 生成一条在三维空间中的路径。每个活动点代表了一个活动,活动的位置信息由时间地理框 架中的空间维度标识,活动发生的时间信息由时间维度标识。时空路径清晰的展示了用户活 动随时间的变化规律,包括相邻活动的时间间隔,活动发生变化的时间点,进行同一活动的 频率等信息。人类短时间的活动点连接表示人的活动在短时间内的变化规律,当活动点是人 的习惯性活动时,由活动点连接起来的时空路径代表了人大致的活动模式。可以根据人的活 动频率提取人类每个时段的习惯性活动,生成时空路径,获取人类的活动主要的时空模式。
社交媒体是人们用来创作、分享、交流的虚拟化社区和网络平台。随着手机的普及和定位 技术的发展,手机对地理位置的识别和记录越来越细致、准确,地理位置慢慢成为社交媒体 用户比较流行的分享内容。虽然人们每天登录社交媒体的时间以及频率很不固定,但是社交 媒体对人们的生活记录是长期的,这种长期的记录形成了面向个人的庞大的数据源,可以从 这些庞大的数据源中提取用户的时空路径,获取人类长期的活动模式。
从时空路径日间稳定点、晚间稳定点可以获得用户单位和家的位置。时空路径的形状取决 于日间稳定点出现与持续的时间,日间位置波动的情况,以及日间、晚间稳定点之间的距离 (通勤距离)。可以考察利用这些特征对用户时空路径进行分类。
而如何将经纬度坐标不同、形状各异的时空路径从三维空间(x,y,t)映射到二维平面 空间(通勤距离,t),并进行类别的划分是当前本领域的一大挑战。
发明内容
针对现有技术缺陷,本发明提出一种利用社交媒体挖掘人类活动时空模式的方法。
本发明技术方案提供一种利用社交媒体挖掘人类活动时空模式的方法,包括以下步骤:
步骤1,面向用户个体提取时空路径,并确定主要时空路径,包括以下子步骤,
步骤1.1,面向用户个体进行社交媒体数据提取;
步骤1.2,以每条社交媒体数据作为一个活动,以社交媒体数据的位置信息作为活动位置;
步骤1.3,根据社交媒体数据的时间信息将活动划分为不同的时间段,设有n个时间段;
步骤1.4,对每个时间段的活动分别进行聚类;
步骤1.5,根据聚类包含的活动位置点数量,计算每个时段中各个聚类的比重值;
步骤1.6,根据各个聚类的比重值,提取每个时段的代表性聚类;
步骤1.7,基于代表性聚类生成多条时空路径,生成方式为,在每个时段从代表性聚类中选择 一个聚类,将所有时段的选择结果连接生成一条时空路径;
步骤1.8,计算步骤1.7所得每条时空路径的出现概率,确认主要时空路径;
步骤1.9,根据主要时空路径提取用户的日间稳定点和晚间稳定点;
步骤2,根据主要时空路径将用户划分为不同类别,包括以下子步骤,
步骤2.1,将各用户的主要时空路径从三维空间映射到二维空间,对任一条时空路径的映射实 现如下,
以时空路径包含的每个聚类的中心作为聚类位置,聚类中心使用每个聚类的外接圆圆心;
把在预定时间段内的聚类位置的经纬度坐标取平均值,作为原点位置;
计算时空路径包含的各时段的聚类位置与原点位置的通勤距离;
以横轴为时间,纵轴为通勤距离将时空路径绘制到二维平面;
步骤2.2,将参与聚类的每条时空路径作为一个拥有n个维度的对象,每个维度为相应时段的 通勤距离,对时空路径进行分类;
步骤2.3,通过不同类别用户的通勤距离获取各类别的时间模式特征和空间模式特征。
而且,步骤1.4中,
使用基于密度的DBSCAN聚类方法对每个时间段的活动分别进行聚类。
而且,步骤1.3中,设每个时间段的长度为1小时,n=24。
而且,步骤1.5中,计算每个时段中各个聚类的比重值,包括用聚类包含的活动位置点数 量计算各聚类所占比重,计算公式如下,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710883260.1/2.html,转载请声明来源钻瓜专利网。