[发明专利]一种基于社交媒体的空间主题查询方法有效

专利信息
申请号: 201910686860.8 申请日: 2019-07-29
公开(公告)号: CN110390061B 公开(公告)日: 2020-07-21
发明(设计)人: 郑凯;周连明;赵艳 申请(专利权)人: 电子科技大学;四川省万略数据科技有限公司
主分类号: G06F16/9537 分类号: G06F16/9537;G06F16/31;G06F16/332;G06F16/9536;G06Q50/00
代理公司: 成都正华专利代理事务所(普通合伙) 51229 代理人: 李蕊
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 社交 媒体 空间 主题 查询 方法
【说明书】:

发明公开了一种基于社交媒体的空间主题查询方法。本发明考虑了文本的位置和语义信息,设计了主题索引以及相应的查询算法。为了获得文本的主题,本发明使用针对短文本的主题模型来训练社交媒体数据。本发明引入结合位置和主题的空间主题索引,可以根据位置和主题进行有效查询,并根据评估结果与查询的相关性,包括主题相关性和空间距离,以对用户进行排名,使得查询结果更加准确。

技术领域

本发明涉及空间主题查询技术领域,具体涉及一种基于社交媒体的空间主题查询方法。

背景技术

随着Twitter等社交媒体的快速发展,用户生成内容(UGC)的规模越来越大。例如Twitter上每月活跃用户约3亿,其中每天有1亿用户发布推文。当前许多研究者已经提出了各种技术来帮助用户从这些大规模社交媒体数据中获得有用的信息。

另外,具有GPS功能的移动设备如手机,也在广泛使用,因此社交媒体可以支持基于位置的服务。例如,当用户发布推文时,他可以选择标记推文的位置。所以当附近有用户感兴趣的事发生时的时候,用户可能会在社交媒体上讨论。此外,新用户可能希望找到一些附近有类似爱好的朋友。所以从海量信息里找到并向用户推荐有用信息的方法是有意义的。通常,社交媒体文本(例如,推文)很短,因为平台限制了文本的字符数,并且短文本在日常生活中常用,这使得难以从这些文本中获得有用的信息。目前,大量工作侧重于组织和分析地理标记数据,通常是采用传统且有效的方法,即空间关键词查询来处理基于位置的数据。

传统的空间关键字查询侧重于位置和关键词,并且在大多数情况下表现很好。但是,在有些情况下,空间关键字查询无法获得满意的结果,因为它无法捕获语义信息。例如,用户查询一个词,可能并不是要求该词必须出现在结果中,而是只要求结果与查询词相关。因此与语义查询相比,只查询关键字是比较死板的。

发明内容

针对现有技术中的上述不足,本发明提供的一种基于社交媒体的空间主题查询方法解决了社交文本查询结果不准确的问题。

为了达到上述发明目的,本发明采用的技术方案为:一种基于社交媒体的空间主题查询方法,包括以下步骤:

S1、对外部语料库进行词嵌入训练获得词特征向量;

S2、对原始数据进行预处理,得到训练数据;

S3、将词特征向量和训练数据通过MetaLDA进行训练,得到训练好的主题模型并构建空间主题索引;

S4、通过训练好的主题模型获取查询文本的主题向量;

S5、根据查询文本的主题向量在空间主题索引中搜索社交文本,并对社交文本对应的用户进行降序排列。

进一步地:所述步骤S3中空间主题索引的构建包括主题构建和空间构建。

进一步地:所述主题构建方法为:去除文本中的停用词,采用TF-IDF方法去除文本中的高频和低频词汇,通过文本中的剩余数据训练MetaLDA主题模型,选择具有最高概率的主题标记文本,根据主题对所有文本进行分类,使每个主题具有相应的文本列表。

进一步地:所述空间构建方法为:通过四叉树构建索引,将整个区域分成四个区域,将包含主题和相应文本的列表存储在叶子节点中,当单个区域中的文本数量大于数量阈值时,将该区域递归地划分为4个小区域,当单个区域的面积小于面积阈值时,该区域不再被分隔。

进一步地:所述步骤S5中社交文本搜索方法为:

根据查询文本的主题对主题概率进行排序,当两个相邻主题概率的比值大于比值阈值时,两个相邻主题都需要进行查询,并根据待查询的主题和查询的位置,在空间主题索引中查询获取所有社交文本。

进一步地:所述两个相邻主题概率的比值的计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;四川省万略数据科技有限公司,未经电子科技大学;四川省万略数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910686860.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top