[发明专利]LBSN中基于好友聚类的社交搜索评价方法有效
申请号: | 201710335698.6 | 申请日: | 2017-05-12 |
公开(公告)号: | CN107194560B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 曹玖新;孙洋;周丹丹 | 申请(专利权)人: | 东南大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/00;G06F16/35 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 杜静静 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | lbsn 基于 好友 社交 搜索 评价 方法 | ||
1.一种LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述评价方法包括以下步骤,1)爬取的Foursquare真实数据集中有联系人信息和位置信息,通过对数据的统计与分析,提取出联系人特征、签到特征、评价特征和时间特征,共15种数据类型,包括用户ID、好友ID、签到ID、签到位置描述、签到发生时区、签到位置ID、签到位置经度、纬度、签到位置名称、签到位置的类型ID、签到位置的类型名称、签到发生时间、评价文本ID、评价文本内容、评价发生时间,构建社交搜索模型并给出形式化描述,筛选发生在纽约的数据集,这种方法同样适用于其他城市;
2)从步骤1)处理好的数据集中提取位置名称、位置类型、位置描述三种数据类型,构建“位置名称-文档”式倒排索引,在此基础上,基于Lucene技术构建社交搜索引擎;
3)线上部分设计搜索算法,在基于搜索得分的位置排序部分,搜索用户输入搜索内容,经语义分词产生话题,与步骤2)倒排索引中的文档进行相似度匹配,根据相关性得分索引出备选位置和基于得分的位置排序;
4)在搜索算法中基于社交得分的位置排序部分,从步骤1)处理好的数据集中提取联系人数据、签到数据和评价数据,线下通过K-Means算法聚类搜索用户的好友,通过KNN算法查找搜索用户一定数量的最近邻,线上通过这些最近邻对搜索用户施加社交影响,通过设计最近邻的区域活跃度和对位置的评价两个社交特征计算步骤3)中的备选位置的社交得分并排序;
5)在搜索算法中基于距离远近的位置排序部分,从步骤1)处理好的数据集中提取位置经纬度数据,通过地球上两点间的距离公式,计算搜索用户当前位置和步骤3)中备选位置的各自距离,量化成得分并排序;
6)综合步骤3)、步骤4)、步骤5)中的三种位置排序,构建线性回归模型并训练,得出最终的位置排序,即搜索结果。
2.根据权利要求1所述的LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述步骤1)中筛选发生在纽约的数据集的具体方法如下,为不同的数据特征建立不同的数据库表,每个表中包含所有真实数据类型中的数据字段,将整个数据集导入数据库即MySQL,再用SQL语言对数据进行处理,先通过时区这个字段提取出纽约的签到记录和评价信息,因为用户ID和位置ID都是各个表中的唯一字段,再通过表连接的方式处理数据,处理后的数据有如下特性,保证用户对位置既有签到记录又有评价信息。
3.根据权利要求1所述的LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述步骤2)中基于Lucene技术构建社交搜索引擎具体如下,其中倒排索引是搜索引擎的核心数据结构,构建倒排索引分为三步:
21)将位置名称、位置类型和位置描述三种数据类型组合成文档(document)作为后索引;
22)将位置名称作为单词term构建前索引;
23)输入关键字,通过语义分词产生话题,与文档做相似度计算,将得分高的一定数量的文档选出,索引出相应的位置名称;
Lucene是一个构建搜索引擎的Java框架,共有5个核心jar包:core、analyzer、highlighter、query和queryparser,通过导入jar包在eclipse开发环境中实现本发明的搜索引擎。
4.根据权利要求1所述的LBSN中基于好友聚类的社交搜索评价方法,其特征在于,所述步骤4)中,线下算法具体如下,通过K-Means算法聚类搜索用户的好友,目的是使数据更加稠密,减小不利影响,将英文的评价文本通过TextBlob情感分析工具量化为得分,具体公式如下所示:
(1)基于签到次数的修正余弦相似度计算公式:
其中,代表用户i1在所有位置点的平均签到数量;
(2)基于评价评分的修正余弦相似度计算公式:
其中,代表用户i1对所有POI的平均评价得分;
(3)总的相似度计算公式:
(4)通过KNN算法查找搜索用户的最近邻,欧氏距离计算公式如下所示:
其中,cenk表示k个聚类中心向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710335698.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电磁组合直线振动式混合颗粒分选装置
- 下一篇:履带移动式水平筛分站
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理