[发明专利]基于Spark的极大无关多元逻辑回归模型对文本情感分类方法有效
申请号: | 201810330888.3 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108536838B | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 雷大江;张红宇;陈浩;张莉萍;吴渝;杨杰;程克非 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06N20/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允;肖丁 |
地址: | 400065*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于Spark的极大无关多元逻辑回归模型对文本情感分类方法,包括:将训练样本数据集存储于HDFS中;Spark平台从HDFS中读取数据生成RDD;Spark平台将数据的预处理任务分为多个任务组,对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS中;训练极大无关多元逻辑回归模型,经过求解得到极大无关多元逻辑回归分类器;将分类器输出到HDFS中;从HDFS中读取经过预处理的待预测文本的数据和训练得到的分类器;获取待预测文本的情感分类。本发明在Spark计算框架下并行方法求解,模型训练更加快速,更适合大数据场景下的文本情感分类;降低了传统多元逻辑回归模型的复杂度,具有更强的泛化能力;能够对待预测样本数据进行精确情感分类。 | ||
搜索关键词: | 基于 spark 极大 无关 多元 逻辑 回归 模型 文本 情感 分类 方法 | ||
【主权项】:
1.基于Spark的极大无关多元逻辑回归模型对文本情感分类方法,其特征在于,所述方法包括:将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中;Spark平台从HDFS分布式文件系统中读取数据,生成具有多个分区的弹性分布式数据集RDD,并将读取的数据存储在所述弹性分布式数据集RDD中;Spark平台将数据的预处理任务分为多个任务组,然后对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS分布式文件系统中;利用经过预处理变换的RDD训练极大无关多元逻辑回归模型,在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数;采用梯度下降法并行求解极大无关多元逻辑回归模型的代价函数的导函数,得到极大无关多元逻辑回归分类器;保存所述极大无关多元逻辑回归分类器,将所述极大无关多元逻辑回归分类器输出到HDFS分布式文件系统中;将待预测文本数据集按照每个样本逐行存储于HDFS分布式文件系统中;待预测文本数据集经过与训练样本数据集相同的RDD预处理后,输出到HDFS分布式文件系统中;从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的极大无关多元逻辑回归分类器;利用所述极大无关多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;在工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810330888.3/,转载请声明来源钻瓜专利网。