[发明专利]一种基于社交网络短文本流的用户聚类和短文本聚类方法有效
申请号: | 201611206373.X | 申请日: | 2016-12-23 |
公开(公告)号: | CN106649730B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 沈鸿;邱章成 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
地址: | 510275 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社交 网络 文本 用户 方法 | ||
1.基于社交网络短文本流的用户聚类和短文本聚类方法,其特征在于,包括下述步骤:
S1、语料获取,通过实现爬虫或社交网络平台公司开放的API获取该社交网络平台的语料库抑或通过自建社交网络系统收集用户语料;
收集T时长的用户数据,存储用户发表的短文本数据,并存储在服务器SVR上;然后按照时间戳,从在最早时间到整个时段内,按时长将T区间分割成段T/t个小区间,把所有短文本按照上述区间整理成个短文本集合,其中 t取一年、一季度、一个月、一周或一天;
设置短文本数据格式,用一个三元组userid, text, timestamp表示,其中userid是用户的id,text是短文本内容,timestamp是该短文本发表时的时间戳,并且还需要获取用户在所述短文本发表时的朋友列表,假设用户user有n个朋友,将其表示 [f1, f2, …,fn] 格式;
S2、语料预处理,包含分词,去停用词,提取词干和提取实体;
对获得的数据进行分词,提取词干,提取实体,去停用词的预处理,并且根据选择的时间间隔t,把收集到的数据集时段T分割T/t段,并对每一段数据分别处理;
S3、基于社交网络中的短文本数据流主题建模,针对语料中文本作者之间存在的社交关系,文本内“词义漂移”问题和短文本稀疏性问题,对语料中的文本进行主题建模,以抽取每个文本的主题;
S301、针对社交网络中短文本作者的社交关系,引入朋友关系紧密度分布,用于衡量朋友之间主题相互影响程度;
S302、针对社交网络中短文本语义的“词义漂移”问题,将主题-词分布视作用户表达习惯并将其分成3类,分别是:用户自己的表达习惯、用户朋友的表达习惯以及其余整个社交网络中的普遍的表达习惯;
S303、针对社交网络中短文本的稀疏性问题,在对主题模型进行采样的时候对文本中的所有词的主题统一成短文本的主题;
S4、推导及采样,根据已建立的概率图模型,推导该模型的主题联合概率分布,并以此作为吉布斯抽样的联合概率分布,最后抽样收敛时,统计用户和文本的主题分布;
将主题模型中的先验分布设置成狄利克雷分布,把主题分布设置成多项式分布,通过狄利克雷分布和多项式分布的共轭关系,简化联合概率分布的推导过程;
S5、对用户进行聚类,将得到的用户主题作为语料中用户的特征,并执行K-Means聚类,得到用户聚类结果;
S6、对短文本进行聚类,将得到的短文本主题作为短文本的特征,对执行K-Means聚类,得到短文本聚类结果;
所述步骤S5和S6中,将得到的用户特征和文本特征分别用K-Means算法进行聚类,以获得本时段的文本聚类和用户聚类;对于新到的用户,对其提取特征后,将其指派到与他欧氏距离最近的簇。
2.根据权利要求1所述的基于社交网络短文本流的用户聚类和短文本聚类方法,其特征在于,所述的语料包括中文语料和英文语料;所述步骤S1中,采用Twitter公司公开的Streaming API获取英文语料,采用新浪API获取中文语料。
3.根据权利要求1所述的基于社交网络短文本流的用户聚类和短文本聚类方法,其特征在于,所述步骤S2中,对于中文语料,采用“最长分词法对短文本进行分词”ICTCLAS分词法对语料进行分词处理;对于英文语料,采用Lemur的停用词库去除停用词,并且采用NLTK的Stemming方法中Porter方法进行提取词干。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611206373.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:办公台(D‑87)
- 下一篇:一种基于大规模属性网络的节点相似性搜索方法