[发明专利]一种基于滑动窗口采样的空间语义相似度计算方法有效
申请号: | 201911018798.1 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110990724B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 王博智;费腾;杜清运;康雨豪;李梦 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/33 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 滑动 窗口 采样 空间 语义 相似 计算方法 | ||
1.一种基于滑动窗口采样的空间语义相似度计算方法,其特征在于,包括:
步骤S1:对包含空间信息的语料数据进行预处理,其中,空间信息为GPS坐标;
步骤S2:采用预设等面积投影方法对预处理后的语料数据中的GPS坐标进行投影处理,获得实际空间范围,且语料数据中的词语与投影后的空间坐标一一对应;
步骤S3:根据投影后的空间坐标的大小,确定上下文窗口,并通过一个预设大小的正方形在上下文窗口中进行采样,获得采样结果,其中,采样结果包括不同尺度的上下文窗口以及与每个上下文窗口对应的词语集合,每个上下文窗口对应的词语集合构成整个语料的词语集合;
步骤S4:对整个语料的词语集合中的每两个词语进行相似度计算;
其中,步骤S3具体包括:
步骤S3.1:从所有投影后的空间坐标中找出最大值和最小值,根据空间坐标的最大值和最小值确定出一个最小外接矩形;
步骤S3.2:设置上下文窗口,从最小外接矩形的左下角开始采样,采样时记录上下文窗口所对应的空间范围内包含的词语;
步骤S3.3:按照预设长度进行水平方向的采样,然后按照预设长度进行垂直方向采样,采样时记录上下文窗口所对应的空间范围内包含的词语,直到整个最小外接矩形采样完成,获得采样结果,其中,整个语料C的采集集合为C:{d1,d2…dn},每个上下文窗口di包含的词语集合为di:{w1,w2…wn}。
2.如权利要求1所述的方法,其特征在于,步骤S1具体包括:
采用N-gram算法进对包含空间信息的语料数据进行分词处理,得到格式为‘词语-坐标’的形式的数据。
3.如权利要求1所述的方法,其特征在于,步骤S2具体为采用贝尔曼等面积圆柱投影方法对预处理后的语料数据中的GPS坐标进行投影处理,投影的具体公式为:
其中,(x′,y′)表示投影转换前的GPS坐标,(x,y)为Behrmann投影转换后的坐标。
4.如权利要求1所述的方法,其特征在于,步骤S4具体包括:
步骤S4.1:从整个语料的词语集合W中取出两个词语;
步骤S4.2:采用下述公式对两个词语进行空间语义相似度计算:
其中,表示词语w1和w2的空间语义相似度,表示同时包含w1和w2的空间窗口的个数,表示包含w1的空间窗口的个数,表示包含w2的空间窗口的个数。
5.如权利要求4所述的方法,其特征在于,在步骤S3之后,所述方法还包括:
将所有的词语对作为键,每个词语对的空间语义相似度作为值,以Key-Value的形式保存,构建空间语义相似度模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911018798.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种菜豆种质改良方法
- 下一篇:一种连接器插针组装折弯机构及方法