[发明专利]一种网络社区用户识别方法、装置和可读存储介质有效

申请号：	201811544400.3	申请日：	2018-12-17
公开（公告）号：	CN109783805B	公开（公告）日：	2020-04-24
发明（设计）人：	吴旭;许晋;颉夏青;戴雨伦	申请（专利权）人：	北京邮电大学
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/289;G06Q50/00;G06N3/04;G06N3/08
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	刘广达
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络社区用户识别方法装置可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开一种网络社区用户识别方法及装置，涉及机器学习及用户识别技术领域。所述方法包括：提取预先收集的网络社区文本数据的第一N‑gram特征并生成第一词向量；以交叉熵为代价函数，采用深度神经网络对第一词向量进行训练，得到文本内容分析模型；使用文本内容分析模型分析待识别用户的文本数据，得到内容属性；使用预设行为分析模型分析待识别用户的行为数据，得到行为属性；根据内容属性和行为属性识别待识别用户。本申请中，引入N‑gram特征，并结合用户内容以及用户行为两个维度的数据进行目标用户的识别，相较于现有的单一维度数据的用户识别，大大提升了识别性能及准确度。

技术领域

本申请涉及机器学习及用户识别技术领域，尤其涉及一种网络社区用户识别方法、装置和可读存储介质。

背景技术

随着社交网络的不断发展，人们更愿意通过网络社区，微博等公共社交平台来表达自己的观点，发表对热点事件的评论。这种公共平台的影响力和传播能力日益提升，使得个人的影响力也随之提升，因此在众多的情况下，根据用户在社交网络中发布数据、发布行为等来准确识别用户越来越受到人们的关注。

当前，目标用户识别的方法主要通过传统统计模型或者通过基于机器学习的数据挖掘算法，其中，基于机器学习的数据挖掘算法，多以特征选择的方式进行。例如，H Gao等人基于社交网络中目标用户的分布和爆发两方面，利用数据统计分析设计了一种方法来识别社交网络中的目标用户；Gyongyi Z基于PageRank提出TrustRank的概念，以己知的正常用户作为起点，以偏移率进行分数传播从而确定所有用户的分数，最后依靠各用户的分数来区分目标用户。然而上述方法均为单一维度特征数据的统计和挖掘，识别性能及准确率均有待于提高；并且在机器学习过程中，随着目标越来越复杂，有些重要的特征难以量化，需要付出很的高代价来选取合适的特征。可见，适应于当前社交网络的快速发展，能够综合多维度的数据进行有效的目标用户识别是有必要的。

发明内容

为解决现有技术的不足，本申请提出一种网络社区用户识别方法、装置和可读存储介质。

第一方面，本申请提出一种网络社区用户识别方法，包括：

提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量；

以交叉熵为代价函数，采用深度神经网络对所述第一词向量进行训练，得到文本内容分析模型；

使用所述文本内容分析模型分析待识别用户的文本数据，得到内容属性；

使用预设行为分析模型分析所述待识别用户的行为数据，得到行为属性；

根据所述内容属性和所述行为属性识别所述待识别用户。

可选的，所述提取预先收集的网络社区文本数据的第一N-gram特征并生成第一词向量，包括：

对预先收集的网络社区文本数据进行分词；

在分词结果中提取第一N-gram特征；

生成所述第一N-gram特征对应词的第一词向量；