[发明专利]高质量用户生成内容的识别方法在审
申请号: | 201910328448.9 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110110084A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 闫相斌;谷炜;张婷婷;石美珠 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/9535;G06F17/27 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户数据 回复 文本 预设 预处理 用户生成内容 标准化处理 互联网技术 聚类分析 权重计算 属性信息 用户属性 预先设置 质量信息 综合用户 权重 测算 分类 | ||
本发明提供高质量UGC的识别方法,涉及互联网技术领域。所述高质量UGC的识别方法包括:获取用户数据;基于预先设置的用户属性特征和指标对所述用户数据分类汇总并测算,对用户数据进行标准化处理;基于处理后的用户数据计算所述指标的权重;综合所述指标的权重计算用户的价值;根据用户的价值设置预设用户,并提取预设用户的回复文本;对所述回复文本进行预处理;对所述回复文本进行聚类分析。本发明综合用户生成内容的质量信息和用户的属性信息两方面识别UGC,可以准确识别出高质量的UGC。
技术领域
本发明涉及互联网技术领域,具体涉及一种高质量用户生成内容的识别方法。
背景技术
随着互联网技术的高速发展和社交媒体的广泛应用,网络逐渐成为人们获取信息的重要来源,这样用户所创造传播的信息在网络社会中也就发挥着越来越重要的作用,因此用户生成内容(UGC,User-Generated Content)成为了Web2.0环境下众多学者的研究热点。提取高质量的UGC具有重要的意义。
现有技术中,一般基于内容进行垃圾识别与谣言检测等方法以帮助用户获取所需的UGC,通过过滤垃圾意见来提取高质量的UGC。
然而,发明人在实现本申请的过程中发现,即使过滤了垃圾意见,UGC的信息质量也依然良莠不齐,因此现有技术存在无法识别高质量UGC的缺点。
发明内容
(一)解决的技术问题
针对现有技术的不足本发明提供了一种高质量UGC的识别方法,解决了现有技术无法识别高质量UGC的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明为解决其技术问题所提供的一种高质量UGC的识别方法,包括以下步骤:
获取用户数据;
基于预先设置的用户属性特征和指标对所述用户数据分类汇总并测算,对用户数据进行标准化处理;
基于处理后的用户数据计算所述指标的权重;
综合所述指标的权重计算用户的价值;
根据用户的价值设置预设用户,并提取预设用户的回复文本;
对所述回复文本进行预处理;
对所述回复文本进行聚类分析;
所述预先设置的用户属性特征和指标基于以下步骤获取:
基于UGC的质量信息和用户的属性信息两方面归纳用户属性特征,所述用户的属性信息归纳的用户属性特征包括:网络连接强度和个人社区属性;
将所述用户属性特征转化为可定量化测量的指标。
优选的,基于UGC的质量信息归纳的用户属性特征包括:产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平。
优选的,所述产品使用经验、批判分析水平、提问研讨能力、需求感知能力和信息获取水平转化的指标为:发帖量、回复量和查看量。
优选的,所述网络连接强度转化的指标为:相对点出度、相对点入度、相对中间中心度、入度接近中心度、出度接近中心度和判断用户是否处在核心区域。
优选的,所述网络连接强度转化的指标的计算方法为:基于社会网络分析法,利用中心性分析的方法计算相对点出度、相对点入度、相对中间中心度、入度接近中心度和出度接近中心度,利用核心-边缘结构分析的方法判断用户是否处在核心区域。
优选的,所述个人社区属性的指标为:用户的级别、帖子量、精华帖数量和注册时长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910328448.9/2.html,转载请声明来源钻瓜专利网。