[发明专利]高质量用户生成内容的识别方法在审
申请号: | 201910328448.9 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110110084A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 闫相斌;谷炜;张婷婷;石美珠 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/9535;G06F17/27 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户数据 回复 文本 预设 预处理 用户生成内容 标准化处理 互联网技术 聚类分析 权重计算 属性信息 用户属性 预先设置 质量信息 综合用户 权重 测算 分类 | ||
1.一种高质量UGC的识别方法,其特征在于,包括以下步骤:
获取用户数据;
基于预先设置的用户属性特征和指标对所述用户数据分类汇总并测算,对用户数据进行标准化处理;
基于处理后的用户数据计算所述指标的权重;
综合所述指标的权重计算用户的价值;
根据用户的价值设置预设用户,并提取预设用户的回复文本;
对所述回复文本进行预处理;
对所述回复文本进行聚类分析;
所述预先设置的用户属性特征和指标基于以下步骤获取:
基于UGC的质量信息和用户的属性信息两方面归纳用户属性特征,所述用户的属性信息归纳的用户属性特征包括:网络连接强度和个人社区属性;
将所述用户属性特征转化为可定量化测量的指标。
2.如权利要求1所述的识别方法,其特征在于,基于UGC的质量信息归纳的用户属性特征包括:产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平。
3.如权利要求2所述的识别方法,其特征在于,所述产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平转化的指标为:发帖量、回复量和查看量。
4.如权利要求1所述的识别方法,其特征在于,所述网络连接强度转化的指标为:相对点出度、相对点入度、相对中间中心度、入度接近中心度、出度接近中心度和判断用户是否处在核心区域。
5.如权利要求4所述的分析方法,其特征在于,所述网络连接强度转化的指标的计算方法为:基于社会网络分析法,利用中心性分析的方法计算相对点出度、相对点入度、相对中间中心度、入度接近中心度和出度接近中心度,利用核心-边缘结构分析的方法判断用户是否处在核心区域。
6.如权利要求1所述的识别方法,其特征在于,所述个人社区属性的指标为:用户的级别、帖子量、精华帖数量和注册时长。
7.如权利要求1所述的分析方法,其特征在于,所述用户数据包括:主题帖数据,回复数据和用户信息数据。
8.如权利要求1所述的识别方法,其特征在于,所述计算用户的价值的方法为:
其中:
Xi表示第i个用户的价值总得分;
xij表示第i个用户的第j项指标;
wi表示每个指标相对于总指标的权重,即
9.如权利要求1所述的识别方法,其特征在于,所述回复文本的预处理包括:对所述回复文本进行分词,抽取关键词。
10.如权利要求1所述的识别方法,其特征在于,回复文本的聚类分析方法包括:K-Means算法、Cure算法、Optics算法和Sting算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910328448.9/1.html,转载请声明来源钻瓜专利网。