[发明专利]基于LGBM模型和BTM模型的垃圾语料筛选方法、系统及设备在审
申请号: | 202011394661.9 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112559681A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 王东海;卫海天 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/258;G06F40/289;G06K9/62 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lgbm 模型 btm 垃圾 语料 筛选 方法 系统 设备 | ||
本申请公开了一种基于LGBM模型和BTM模型的垃圾语料筛选方法、系统及设备,所述方法包括:对不同类别商品进行评论抽取,获取评论数据;对所述评论数据使用BTM模型进行主题挖掘,根据挖掘结果总结出垃圾评论高频词;基于所述评论数据和所述垃圾评论高频词训练LGBM模型;使用训练好的所述LGBM模型筛选出垃圾评论语料。通过本申请,能够在保证推断速度和降低人工标注的情况下筛选出与评论商品无关的垃圾评论。
技术领域
本发明涉及计算机应用,自然语言处理领域。更具体的说,本发明涉及一种基于LGBM模型和BTM模型的垃圾语料筛选方法、系统及设备。
背景技术
随着电子商务的发展,网络上产生了大量用户对商品的评论文本。这些评论文本是对商品进行消费者意见挖掘的重要语料,但由于电商平台对评论的激励机制,一些用户在商品评论时产生了大量的垃圾文本,例如凑字数、复制无关内容等,对评论数据的有效挖掘产生干扰。因此,如何在大量数据中筛选出垃圾评论,留下有价值的评论内容进行后续的消费者意见挖掘十分重要。
目前,大多采用自然语言处理、深度学习等技术筛选垃圾评论,但是仍存在以下问题:
1、使用深度学习算法筛选垃圾评论,推断速度慢,处理大量数据时耗费时间较长,效率低;
2、需要评论者的其他信息,大部分情况下取得这些信息都比较困难;
3、没有考虑评论文本与所评论商品之间的关系;
4、使用的标注数据完全由人工标注,效率低,数量少,然而标注成本高昂。
发明内容
本申请实施例提供了一种基于LGBM模型和BTM模型的垃圾语料筛选方法,以至少解决相关技术中主观因素影响的问题。
本发明提供了一种基于LGBM模型和BTM模型的垃圾语料筛选方法,所述方法包括以下步骤:
抽取步骤:对商品进行评论抽取,获取评论数据;
挖掘步骤:对所述评论数据使用BTM模型进行主题挖掘,根据挖掘结果总结出垃圾评论高频词;
训练步骤:基于所述评论数据和所述垃圾评论高频词训练LGBM模型;
筛选步骤:使用训练好的所述LGBM模型筛选出垃圾评论语料。
作为本发明的进一步改进,所述挖掘步骤前还包括使用所述BTM模型将所述评论数据分为K类,所述K为BTM模型对超参数。
作为本发明的进一步改进,所述训练步骤具体包括以下步骤:
数据分类步骤:将所述评论数据分为训练集、验证集、测试集;
特征提取步骤:对所述训练集进行特征提取,得到垃圾语料特征;
模型训练步骤:基于所述垃圾语料特征对所述LGBM模型进行特征训练。
作为本发明的进一步改进,所述特征提取步骤中垃圾语料特征包括文本特征、所述垃圾评论高频词的个数、号码个数、敏感词个数。
作为本发明的进一步改进,所述垃圾评论语料具有所述垃圾语料特征中的任一特征。
基于相同发明思想,本发明还基于任一项发明创造所揭示的基于LGBM模型和BTM模型的垃圾语料筛选方法,揭示了一种基于LGBM模型和BTM模型的垃圾语料筛选系统,
所述基于LGBM模型和BTM模型的垃圾语料筛选系统包括:
抽取模块,对商品进行评论抽取,获取评论数据;
挖掘模块,对所述评论数据使用BTM模型进行主题挖掘,根据挖掘结果总结出垃圾评论高频词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011394661.9/2.html,转载请声明来源钻瓜专利网。