[发明专利]一种分类模型应用、分类模型训练方法及装置在审
申请号: | 201910379761.5 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110222171A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 王李鹏 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 邓超 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供了一种分类模型应用、分类模型训练方法及装置,该方法包括:获取待处理语料,并将待处理语料转换为词单元序列;确定预先构建的关键词集合中各个关键词分别在词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;确定词单元序列中每种词在词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;将第一特征向量输入至第一分类模型中,输出待处理语料的第一分类结果;以及,将第二特征向量输入至第二分类模型中,输出待处理语料的第二分类结果;基于第一分类结果和第二分类结果,确定待处理语料的类别。通过上述方式可以提升语料分类的准确率。 | ||
搜索关键词: | 语料 分类结果 分类模型 特征向量 词单元 分类模型训练 关键词集合 逆文档频率 输出 准确率 构建 预设 应用 分类 转换 申请 | ||
【主权项】:
1.一种分类模型应用方法,其特征在于,包括:获取待处理语料,并将所述待处理语料转换为词单元序列;确定预先构建的关键词集合中各个关键词分别在所述词单元序列中的第一出现频次,并基于各个关键词分别对应的第一出现频次,生成第一特征向量;以及,确定所述词单元序列中每种词在所述词单元序列中的第二出现频次,并基于每种词的第二出现频次和每种词的预设逆文档频率,生成第二特征向量;将所述第一特征向量输入至用于预测语料类别的第一分类模型中,输出所述待处理语料的第一分类结果;以及,将所述第二特征向量输入至用于预测语料类别的第二分类模型中,输出所述待处理语料的第二分类结果;基于所述第一分类结果和所述第二分类结果,确定所述待处理语料的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910379761.5/,转载请声明来源钻瓜专利网。