[发明专利]一种基于时空语义挖掘的城市功能区识别流程在审
申请号: | 202010373505.8 | 申请日: | 2020-05-06 |
公开(公告)号: | CN113627864A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 孙勇;蔡绍硕;蔡同建 | 申请(专利权)人: | 武汉市中城事大数据有限责任公司 |
主分类号: | G06Q10/10 | 分类号: | G06Q10/10;G06F40/30;G06F40/289;G06F16/35;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 430000 湖北省武汉市东湖新技术开发区高*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 语义 挖掘 城市 功能 识别 流程 | ||
1.一种基于时空语义挖掘的城市功能区识别流程,其特征在于:包括文档、单词、挤出功能单元、时空数据、主题模型、文档主题分布以及单元功能分布,首先尝试通过主题模型发现区域隐含的功能,与文本主题挖掘类比,基础功能单元相当于语料中的文档,功能单元中的时空数据类似文档中的单词,通过主题模型后,得到的单元功能分布相当于文档主题分布,使用的城市时空数据为具有代表性的新浪微博位置签到数据,每条签到数据中包含用户信息、签到位置的空间坐标、发布时间和发布文本等,能够从不同角度反应人们的动态活动模式,同时从百度地图获取研究区域中的POI,每条记录包含物理实体的名称、空间坐标、地址和类型等,由其类型计算出不同基础功能单元的POI类别密度特征。
2.根据权利要求1所述的一种基于时空语义挖掘的城市功能区识别流程,其特征在于,该流程如下:首先将研究区域以建筑物为划分依据分为空间独立的基础功能单元,并根据空间坐标将离散的微博签到数据转换为签到事件集合分配到各个单元;然后,以基础功能单元为对象,提取其签到事件集合的行为模式和文本特征,并计算POI类别密度,代入DMR主题模型,得到基础功能单元的功能向量;由于获得的功能向量并没有明确的功能语义,故对功能向量聚类分析,得到具有相似功能的单元簇,最后,根据功能单元中POI结构标注出各区域簇的功能属性,给予语义性解释,完成功能区识别。
3.根据权利要求1所述的一种基于时空语义挖掘的城市功能区识别流程,其特征在于,该流程如下:为了获得城市功能区,需要先进行基础功能单元划分,识别出研究区域中建筑物的轮廓,再使用连通区域标记算法划分出基础功能单元,然后将研究区域中的签到数据空间化,映射到各个基础单元,接下来详细介绍基础单元特征提取、潜在功能挖掘以及功能区标注的过程。
4.根据权利要求1所述的一种基于时空语义挖掘的城市功能区识别流程,其特征在于,行为模式位置签到数据中,用户每次的签到行为可以表示为C={user,latitude,longitude,time,text}其中,user为用户标识;latitude为签到位置的纬度;longitude为签到位置的经度;time为签到的时间;text为签到时发布的文本,它们的集合构成了用户的一次移动行为,表示用户在某个时间出现在了某个地点,基础功能单元中的用户行为模式定义如下:段内用户出现在某基础功能单元的平均次数,将一天划分为12个时间段,每段2个小时,并且区分工作日和周末,得到24个时间区间,统计每个区域每个时间段用户签到行为C的平均个数,形成行为模式矩阵P用户行为模式矩阵P,行为模式矩阵表示某时间用户移动模式矩阵中,横轴为时间区间t1,…,t24,纵轴为区域R1,…,Rn,n为基础单元的个数,矩阵中的数字表示某种行为模式平均出现的次数,如阴影数字6表示,在区域Rj中时间区间ti内用户平均每天到此区域6次,如此,得到每个区域24维的行为模式向量。
5.根据权利要求1所述的一种基于时空语义挖掘的城市功能区识别流程,其特征在于,位置签到的文本数据以短文本居多,特征提取存在困难,采用基于Word2vec词向量模型的特征扩充方法扩展区域内的文本特征,以缓解特征稀疏问题,Word2vec将词语投影到一个向量空间,属于distributedrepre-sentation词向量[15,16],它基于词语语义的分布假说理论,提出一种基于神经网络的词向量训练模型,通过目标词与上下文的关系,得到目标词的低维词向量,不仅训练效率高,而且在大规模语料上训练得到的词向量在句法和语义上也具有很强的相关性,由于Word2vec词向量模型可以发现词之间的语义关系,故使用它寻找关键词的相近词,用于扩充短文本的特征,同时在一定程度上增强主题,更好地体现功能性,文本特征扩充的具体步骤如下,
S1:数据预处理:将采集到的大量微博语料分词并去除停用词和干扰词;
S2:训练词向量模型:配置Word2vec模型参数,代入数据训练;
S3:抽取关键词:统计分析得出已有语料文本的平均长度为17个词语,故计算待扩充文本中词语的TF-IDF值,并选取前10个作为关键词;
S4文本扩充:遍历这些关键词,根据之前得到的Word2vec模型扩充5个最相近词作为扩充文本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉市中城事大数据有限责任公司,未经武汉市中城事大数据有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010373505.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:光杆密封填料
- 下一篇:分子筛催化剂的制备方法、催化剂及其应用
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理