[发明专利]一种垃圾评论的检测识别方法在审

专利信息
申请号: 202011628021.X 申请日: 2020-12-31
公开(公告)号: CN112699661A 公开(公告)日: 2021-04-23
发明(设计)人: 潘晓光;易传润;王宇琦;令狐彬;李娟 申请(专利权)人: 山西三友和智慧信息技术股份有限公司
主分类号: G06F40/205 分类号: G06F40/205;G06F40/284;G06F16/35
代理公司: 太原荣信德知识产权代理事务所(特殊普通合伙) 14119 代理人: 杨凯;连慧敏
地址: 030000 山西省*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 垃圾 评论 检测 识别 方法
【权利要求书】:

1.一种垃圾评论的检测识别方法,其特征在于:包括下列步骤:

S1、对词语、主题、评论、评论集合信息进行数据处理,从而对评论数据进行初步处理;

S2、构建主题模型;

S3、对评论数据进行预处理;

S4、检测每条评论的评论目标是否为目标商品及其特征,检测出与目标商品无关的评论;

S5、训练主题模型:对比垃圾评论与真实评论之间主题的差异,进而得出相似度阈值,从而判定垃圾评论。

2.根据权利要求1所述的一种垃圾评论的检测识别方法,其特征在于:所述S1中对词语、主题、评论、评论集合信息进行数据处理的方法为:所述词语是组成一条评论的基本单位,所述词语采用wN表示,所述词语采用索引为1~N的字典向量表示,所述N是词语的总数目;所述主题是从所有评论抽取出的词语,所述主题反映评论的核心语义关系,所述主题采用z表示;所述评论采用D表示,每条评论中包含多个词语w,所述D={w1,w2,…,wN},所述wi为评论中的第i个词语;所述评论集合是所有评论的集合,所述X={D1,D2,…,DM},所述M为所有评论的总数,所述Di为评论集合中的第i个评论。

3.根据权利要求2所述的一种垃圾评论的检测识别方法,其特征在于:所述S1中对在线商城评论数据进行初步处理的方法为:

检测是否存在重复评论,若存在,对重复评论进行删除,即Di=Dj时,则{X|removeDi orDj};

检测是否存在无意义词语,若存在,对含有无意义词语的评论进行删除,设无意义词语集为o,当wi∈o时,则{w|remove wi}。

4.根据权利要求1所述的一种垃圾评论的检测识别方法,其特征在于:所述S2中构建主题模型的方法为:包括下列步骤:

S2.1、将每一条评论用一个词频向量表示,且评论中的词语不考虑顺序,每一条评论包含多个主题,每一个主题包含多个词语,从而形成了商品下的每一条评论;

S2.2、采用标签主题扩充评论主题;

S2.3、将每一条评论表示成评论主题的主题分布所述所述主题分布的每个分量为评论中每个主题出现的概率,将每个主题表示成评论中包含词语的词语分布所述所述词语分布中的每个分量为主题的每个词语出现的概率;

S2.4、将评论的标签主题分布表示为所述所述标签主题分布中的每个分量为标签主题的概率,将标签主题的词语分布表示为所述所述标签主题的词语分布中的每个分量为标签主题的不同词语的概率。

5.根据权利要求1所述的一种垃圾评论的检测识别方法,其特征在于:所述S3中对评论数据进行预处理的方法为:

S3.1、对评论数据进行分词操作;

S3.2、观察分词结果,观察评论中是否存在有较多语气词,若存在,对含有较多语气词的评论进行删除;

S3.3、通过Word2Vec算法计算词语在评论中的重要程度,按照重要程度大小顺序进行排列;

S3.4、通过八爪鱼采集器获取到评论数据,对获取到的评论数据预先做出是否为垃圾评论的标识,并对评论数据进行标注;

S3.5、将评论数据按照商品的类别划分成三个评论子数据集,采用有偿标注的方式对每个子数据集进行标注;

S3.6、标注过程中,若出现对同一评论的两个标注结果不同的现象,将重新对该评论进行甄别,取三个标注数据的交集,集合成一个分别包含不同商品类别的评论数据集。

6.根据权利要求1所述的一种垃圾评论的检测识别方法,其特征在于:所述S5中训练主题模型包括Gibbs采样参数估计和模型训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011628021.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top