[发明专利]一种基于滑动窗口采样的空间语义相似度计算方法有效
申请号: | 201911018798.1 | 申请日: | 2019-10-24 |
公开(公告)号: | CN110990724B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 王博智;费腾;杜清运;康雨豪;李梦 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/33 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 滑动 窗口 采样 空间 语义 相似 计算方法 | ||
本发明公开了一种基于滑动窗口采样的空间语义相似度计算方法,首先对包含空间信息的语料数据进行预处理,然后采用预设等面积投影方法对预处理后的语料数据中的坐标进行投影处理获得实际空间范围,接着确定上下文窗口并进行滑动采样,最后对整个语料的词语集合中的每两个词语进行相似度计算。本发明通过挖掘词语之间的空间语义相似关系,构建出一个可以度量词语空间语义相似度的模型。其在综合考虑空间相关性和文本相关性的方面,优于传统的文本相似度模型和地理空间相似度模型。作为综合人的空间思维和空间感知来理解人类自然语言的新角度,对传统的自然语义相似度模型进行了有效补充,有效改善智能地理信息检索和推荐系统的准确性。
技术领域
本发明涉及地理信息检索技术领域,具体涉及一种基于滑动窗口采样的空间语义相似度计算方法。
背景技术
对于当前计算机和语言学交叉学科下的自然语言处理问题(NLP)来说,计算文本中词语之间的相似度关系,是解决这些问题的关键部分。
现有技术中,通用的词语相似度模型都采用大文本语料库和深度学习训练的方法得到,如Google公司的Word2Vec(Mikolov,Chen et al.2013)模型和Facebook公司的Fasttext(Joulin,Grave et al.2016)模型。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
现有技术中的上述模型在通用的一般文本上表现良好,但在涉及到处理包含空间关系信息的语料库时,这些模型则表现较差,具体体现在无法真正得到词语的空间语义关系,如:对于‘啤酒’一次进行相近词语检索,在Word2vec模型只能捕捉到‘红酒’,‘酒精’等文本语义相近的词语;而‘酒吧’,‘派对’,‘乐队’等与‘啤酒’在空间上下文中相近的空间语义信息则无法被捕捉到,而这些环境信息对于兼顾上下文的地理信息检索系统是非常重要的。另外一方面,地理信息检索(Geographical Information Retrieval)在处理空间信息的相似度时,通常采用分别计算空间信息的文本相似度和空间相似度,最后再将二者加权相加的方法(Buyukokkten,Cho et al.1999,Purves,Clough et al.2018)。但是,这样的方法在本质上没有将语言放在空间上下文中作为一个整体去考虑,因此在处理主题不明确的地理信息文档时会返回错误的相似度结果,如:当用户在进行‘武汉市的酒吧’这一检索任务时,对于一个名为‘绿色长廊’的文档(这篇文档是对武汉市一家同名的酒吧进行描述的文档,其文档中只包含对于酒吧气氛、环境的描述,如吵闹、乐队、威士忌),传统的地理信息检索方法在对这篇文档中的词语进行检索时,因为没有发现在文本相似度上与检索关键词‘酒吧’相关的词语(如酒馆、餐吧、沙龙),从而到这篇实际有效的文档被漏掉。
综上所述,在研究及应用涉及空间信息的语言学问题时,传统的自然语义相似度模型不足以胜任,而传统的地理信息检索系统在处理主题模糊的信息时表现不足,也就是说,现有技术中的方法在处理包含空间关系信息和主题模糊的信息时存在准确性不够的技术问题。
发明内容
有鉴于此,本发明提供了一种基于滑动窗口采样的空间语义相似度计算方法,用以解决或者至少部分解决现有技术中的方法在处理包含空间关系信息和主题模糊的信息时存在的准确性不够的技术问题。
为了解决上述技术问题,本发明提供了一种基于滑动窗口采样的空间语义相似度计算方法,包括:
步骤S1:对包含空间信息的语料数据进行预处理,其中,空间信息为GPS坐标;
步骤S2:采用预设等面积投影方法对预处理后的语料数据中的GPS坐标进行投影处理,获得实际空间范围,且语料数据中的词语与投影后的空间坐标一一对应;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911018798.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种菜豆种质改良方法
- 下一篇:一种连接器插针组装折弯机构及方法