[发明专利]基于智能决策的文本分类方法、装置、服务器及介质在审
申请号: | 201910007838.6 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109857862A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词袋模型 文本分类 文本 特征集合 训练文本 智能决策 构建 级联 分类 服务器 分类结果 分类识别 预设条件 速率和 森林 调用 申请 | ||
本申请实施例提供了一种基于智能决策的文本分类方法、装置、服务器及介质,其中,该方法包括:利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;通过所述第二词袋模型构建用于文本分类的级联森林模型;在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对所述目标评语文本进行分类,得到对所述目标评语文本的分类结果。采用本发明,可以提高计算速率和分类精度。
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于智能决策的文本分类方法、装置、服务器及介质。
背景技术
在自然语言处理中,通常会使用循环神经网络等神经网络来对文本进行分类。然而,采用循环神经网络等神经网络进行文本分类时,会存在计算效率较低,分类精度不高等诸多问题。
发明内容
本申请实施例提供了一种基于智能决策的文本分类方法、装置、服务器及介质,可以提高计算效率和分类精度。
第一方面,本申请实施例提供了一种基于智能决策的文本分类方法,包括:
利用训练文本构建第一词袋模型;所述第一词袋模型包括所述训练文本中各评语文本的词特征;
从所述第一词袋模型的词特征中确定出满足预设条件的词特征集合,并根据所述词特征集合生成第二词袋模型;
通过第二词袋模型构建用于文本分类的级联森林模型;
在需要对待分类的目标评语文本进行分类识别时,调用所述级联森林模型对目标评语文本进行分类,得到对所述目标评语文本的分类结果。
可选地,所述方法还包括:
从指定平台获取评语文本集合;所述评语文本集合包括多个评语文本;
根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本;所述预设筛选规则包括以下任意一项或多项:无用评语文本筛选规则、评论时间筛选规则、文本长度筛选规则、评语文本类别筛选规则。
可选地,所述预设筛选规则包括无用评语文本筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
从评语文本集合中确定出无用评语文本,并删除所述评语文本集合中的所述无用评语文本;所述无用评语文本为以下任意一项或多项:恶俗评语文本、有用指数低于第一预设值的评语文本、无用指数高于第二预设值的评语文本、不属于分类类别和/或分类对象的评语文本;
将执行了删除操作的评语文本集合确定为训练文本。
可选地,所述预设筛选规则包括评论时间筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
获取所述评语文本集合中各个评语文本的评论时间;
从所述各个评语文本中确定出评论时间在预设时间范围内的评语文本,并将所述在预设时间范围内的评语文本确定为训练文本。
可选地,所述预设筛选规则包括文本长度筛选规则,所述根据预设筛选规则的指示,从所述评语文本集合中筛选出训练文本,包括:
统计所述评语文本集合中各个评语文本的文本长度;
从所述各个评语文本中确定出文本长度大于预设文本长度的评语文本,并将所述文本长度大于预设文本长度的评语文本确定为训练文本。
可选地,所述将所述文本长度大于预设文本长度的评语文本作为训练文本,包括:
删除所述文本长度大于预设文本长度的评语文本中,重复词语的数量大于预设数量的评语文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910007838.6/2.html,转载请声明来源钻瓜专利网。