[发明专利]基于语义特性提取位置指示词的位置推断方法有效
申请号: | 201910088827.5 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109918579B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 刘粉林;田合婵;乔亚琼;朱玛;罗向阳 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/9536;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 郑州联科专利事务所(普通合伙) 41104 | 代理人: | 刘建芳 |
地址: | 450001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 特性 提取 位置 指示 推断 方法 | ||
本发明公开了一种基于多重干扰词过滤的位置推断方法,包括如下步骤数据预处理、词语筛选、位置指示词提取、分类器训练和最后的用户位置推断。本发明首先对文本数据进行预处理,得到词语集;其次,根据信息增益率对词语进行初筛;然后,利用word2vec构建词向量,通过聚类将语义相似的词语聚到一起,并利用序列后向的包裹式特征选择方式从聚类形成的簇中提取位置指示词;接着,利用位置指示词训练朴素贝叶斯分类器;最后,利用训练好的分类器进行用户位置推断。本发明充分利用word2vec来表述词语的语义特性,可有效提升位置指示词提取的准确性,从而提升位置推断的准确性。
技术领域
本发明涉及位置推断技术领域,尤其涉及基于语义特性提取指示位置词的位置推断方法。
背景技术
目前,近年来,以Twitter、Facebook和新浪微博等为代表的国内外社交媒体,发展十分迅猛,为用户提供了如发布动态、位置签到、评论互动等服务,给人们的生活带来了极大的便利。这些服务形成的数据具有极高的使用价值,其中蕴含的位置信息可以将虚拟用户与现实世界关联起来,应用于监测居民的健康状况、推荐周边活动、识别紧急状况发生地、检测地区性社团、预测各地区的选举结果等方面。然而,由于社交媒体对用户发布的位置数据没有严格的要求,用户可能不提供位置或提供错误的位置。相关文献的统计结果表明,美国的Twitter数据集中只有21%的用户在注册资料中提供了位置,而且这些位置也不完全准确。此外,社交媒体用户发布的文本中带有位置签到标签的数据也十分稀疏,Ryoo等人观察到其数据集中只有大约0.4%的推文带有位置签到标签,类似的观察结果也出现在文中。然而,用户位置可以通过文本中出现的某些词语,如方言、当地建筑名、特色小吃名、城市名等进行推断。除了文本,其他类型的社交媒体数据,如关注/粉丝、教育信息、职业信息等也可以推断用户位置。如何利用社交媒体数据推断用户位置是一个非常值得研究的问题,也具有重要的理论和现实意义。
目前,社交媒体用户位置推断的粒度一般在城市级,有时在州级或国家级。社交媒体用户位置推断的方法主要有基于朋友关系的位置推断、基于用户文本的位置推断和基于多种社交媒体数据融合的位置推断等。文假设互相关注的用户之间是真实位置邻近的朋友关系,基于用户的关注/粉丝数据推断用户位置。然而,这种假设与事实不完全符合。Kong等人发现,两个互相关注的用户如果有一半以上的共同朋友,则距离邻近的概率为83%;如果仅有10%的共同朋友,距离邻近的概率则下降到2.4%。与Kong等人的结论相似,研究表明相互关注的用户之间的真实位置不一定邻近。大多数基于朋友关系推断用户位置的方法都依赖于用户的全部关注/粉丝数据的获取。然而,随着隐私保护力度的加强,已经无法获取用户的全部关注/粉丝数据,现有的基于朋友关系推断用户位置的方法受到极大的限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910088827.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用于文旅的智能浏览方法及系统
- 下一篇:一种搜索方法及终端设备