[发明专利]基于LGBM模型和BTM模型的垃圾语料筛选方法、系统及设备在审
申请号: | 202011394661.9 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112559681A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 王东海;卫海天 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/258;G06F40/289;G06K9/62 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lgbm 模型 btm 垃圾 语料 筛选 方法 系统 设备 | ||
1.一种基于LGBM模型和BTM模型的垃圾语料筛选方法,其特征在于,包括如下步骤:
抽取步骤:对商品进行评论抽取,获取评论数据;
挖掘步骤:对所述评论数据使用BTM模型进行主题挖掘,根据挖掘结果总结出垃圾评论高频词;
训练步骤:基于所述评论数据和所述垃圾评论高频词训练LGBM模型;
筛选步骤:使用训练好的所述LGBM模型筛选出垃圾评论语料。
2.如权利要求1所述的基于LGBM模型和BTM模型的垃圾语料筛选方法,其特征在于,所述挖掘步骤前还包括使用所述BTM模型将所述评论数据分为K类,所述K为BTM模型对超参数。
3.如权利要求1所述的基于LGBM模型和BTM模型的垃圾语料筛选方法,其特征在于,所述训练步骤具体包括以下步骤:
数据分类步骤:将所述评论数据分为训练集、验证集、测试集;
特征提取步骤:对所述训练集进行特征提取,得到垃圾语料特征;
模型训练步骤:基于所述垃圾语料特征对所述LGBM模型进行特征训练。
4.如权利要求3所述的基于LGBM模型和BTM模型的垃圾语料筛选方法,其特征在于,所述特征提取步骤中垃圾语料特征包括文本特征、所述垃圾评论高频词的个数、号码个数、敏感词个数。
5.如权利要求1所述的基于LGBM模型和BTM模型的垃圾语料筛选方法,其特征在于,所述垃圾评论语料具有所述垃圾语料特征中的任一特征。
6.一种基于LGBM模型和BTM模型的垃圾语料筛选系统,其特征在于,包括:
抽取模块,对商品进行评论抽取,获取评论数据;
挖掘模块,对所述评论数据使用BTM模型进行主题挖掘,根据挖掘结果总结出垃圾评论高频词;
训练模块,基于所述评论数据和所述垃圾评论高频词训练LGBM模型;
筛选模块,使用训练好的所述LGBM模型筛选垃圾评论语料。
7.如权利要求6所述的基于LGBM模型和BTM模型的垃圾语料筛选系统,其特征在于,还包括评论分类模块,使用BTM模型将所述评论数据分为K类,所述K为BTM模型对超参数。
8.如权利要求6所述的基于LGBM模型和BTM模型的垃圾语料筛选系统,其特征在于,所述训练模块包括:
数据分类单元,将所述评论数据分为训练集、验证集、测试集;
特征提取单元,对所述训练集进行特征提取,得到垃圾语料特征;
模型训练单元,基于所述垃圾语料特征对所述LGBM模型进行特征训练。
9.如权利要求8所述的基于LGBM模型和BTM模型的垃圾语料筛选系统,其特征在于,所述特征提取单元中垃圾语料特征包括文本特征、所述垃圾评论高频词的个数、号码个数、敏感词个数。
10.一种设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于LGBM模型和BTM模型的垃圾语料筛选方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011394661.9/1.html,转载请声明来源钻瓜专利网。