[发明专利]一种网络社区用户识别方法、装置和可读存储介质有效
申请号: | 201811544400.3 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109783805B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 吴旭;许晋;颉夏青;戴雨伦 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06Q50/00;G06N3/04;G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 刘广达 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 社区 用户 识别 方法 装置 可读 存储 介质 | ||
本申请公开一种网络社区用户识别方法及装置,涉及机器学习及用户识别技术领域。所述方法包括:提取预先收集的网络社区文本数据的第一N‑gram特征并生成第一词向量;以交叉熵为代价函数,采用深度神经网络对第一词向量进行训练,得到文本内容分析模型;使用文本内容分析模型分析待识别用户的文本数据,得到内容属性;使用预设行为分析模型分析待识别用户的行为数据,得到行为属性;根据内容属性和行为属性识别待识别用户。本申请中,引入N‑gram特征,并结合用户内容以及用户行为两个维度的数据进行目标用户的识别,相较于现有的单一维度数据的用户识别,大大提升了识别性能及准确度。
技术领域
本申请涉及机器学习及用户识别技术领域,尤其涉及一种网络社区用户识别方法、装置和可读存储介质。
背景技术
随着社交网络的不断发展,人们更愿意通过网络社区,微博等公共社交平台来表达自己的观点,发表对热点事件的评论。这种公共平台的影响力和传播能力日益提升,使得个人的影响力也随之提升,因此在众多的情况下,根据用户在社交网络中发布数据、发布行为等来准确识别用户越来越受到人们的关注。
当前,目标用户识别的方法主要通过传统统计模型或者通过基于机器学习的数据挖掘算法,其中,基于机器学习的数据挖掘算法,多以特征选择的方式进行。例如,H Gao等人基于社交网络中目标用户的分布和爆发两方面,利用数据统计分析设计了一种方法来识别社交网络中的目标用户;Gyongyi Z基于PageRank提出TrustRank的概念,以己知的正常用户作为起点,以偏移率进行分数传播从而确定所有用户的分数,最后依靠各用户的分数来区分目标用户。然而上述方法均为单一维度特征数据的统计和挖掘,识别性能及准确率均有待于提高;并且在机器学习过程中,随着目标越来越复杂,有些重要的特征难以量化,需要付出很的高代价来选取合适的特征。可见,适应于当前社交网络的快速发展,能够综合多维度的数据进行有效的目标用户识别是有必要的。
发明内容
为解决现有技术的不足,本申请提出一种网络社区用户识别方法、装置和可读存储介质。
第一方面,本申请提出一种网络社区用户识别方法,包括:
提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量;
以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型;
使用所述文本内容分析模型分析待识别用户的文本数据,得到内容属性;
使用预设行为分析模型分析所述待识别用户的行为数据,得到行为属性;
根据所述内容属性和所述行为属性识别所述待识别用户。
可选的,所述提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量,包括:
对预先收集的网络社区文本数据进行分词;
在分词结果中提取第一N-gram特征;
生成所述第一N-gram特征对应词的第一词向量;
对所述第一词向量进行one-hot编码,得到one-hot形式的第一词向量。
可选的,所述以交叉熵为代价函数,采用深度神经网络对所述第一词向量进行训练,得到文本内容分析模型,包括:
将所述one-hot形式的第一词向量输入至深度神经网络,构建第一向量矩阵;
对所述第一词向量矩阵进行预设运算,形成第二词向量矩阵;
根据预设的分类类别,以交叉熵为代价函数,采用反向传播、梯度下降的形式迭代更新所述第一向量矩阵和第二向量矩阵,得到多分类的文本内容分析模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811544400.3/2.html,转载请声明来源钻瓜专利网。