[发明专利]分类模型训练方法、异常评论检测方法、装置及设备有效

申请号：	201910133882.1	申请日：	2019-02-22
公开（公告）号：	CN110162621B	公开（公告）日：	2023-05-23
发明（设计）人：	温蕊	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/36
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	王仲凯
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类模型训练方法异常评论检测装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种分类模型训练方法，其特征在于，包括：

获取语料集，根据所述语料集构建黑词库；

获取目标评论系统中的评论数据集，根据所述评论数据集扩充所述黑词库；

对所述评论数据集中各评论数据进行行为特征提取并根据所述黑词库进行内容特征提取，根据评论数据对应的行为特征和内容特征生成携带有类型标签的训练特征向量，所述类型标签包括正常和异常；

以所述评论数据集中各评论数据对应的训练特征向量作为训练样本，其中，类型标签为正常的训练特征向量作为所述训练样本中的正样本，类型标签为异常的训练特征向量作为所述训练样本中的负样本，采用所述训练样本对分类模型进行多次迭代训练，通过当前迭代训练的分类模型对所述评论数据集中各评论数据进行预测，根据预测类型为异常的评论数据更新所述黑词库，基于更新后的黑词库重新标记所述评论数据集中各评论数据的类型标签以更新所述训练样本，以进行下一次迭代训练直至所述分类模型和所述黑词库处于稳定态。

2.根据权利要求1所述的方法，其特征在于，所述目标评论系统为应用商店的评论系统；

则所述获取语料集，根据所述语料集构建黑词库，包括：

获取多种来源的语料集，所述多种来源的语料集中至少包括来源于应用市场的应用实体名称语料集和来源于互联网网站的作弊舆情语料集；针对获取的语料集进行关键词抽取、去重和分类得到包含多个类别的黑词表的黑词库。

3.根据权利要求1所述的方法，其特征在于，所述根据所述评论数据集扩充所述黑词库，包括：

对所述评论数据集中各评论数据进行分词、命名实体识别以及摘要抽取，得到所述评论数据集对应的关键词；

确定所述评论数据集对应的关键词与所述黑词库中黑词的词向量距离；

选择词向量距离小于距离阈值的关键词，将其扩充至所述黑词库中。

4.根据权利要求1所述的方法，其特征在于，所述对所述评论数据集中各评论数据进行行为特征提取，包括：

针对所述评论数据集中各评论数据分别提取多维行为特征，所述多维行为特征包括以下至少两种行为特征：

评论内容长度、特殊符号占比、发表评论设备数量、重复评论出现次数、用户在时间周期内发表评论次数、用户平均使用设备数和内容相似的评论数。

5.根据权利要求1所述的方法，其特征在于，所述根据所述黑词库进行内容特征提取，包括：

针对所述评论数据集中各评论数据，判断该评论数据中是否包括所述黑词库中的黑词；