[发明专利]一种文本分类方法、装置、计算机设备及存储介质在审
申请号: | 201910038962.9 | 申请日: | 2019-01-14 |
公开(公告)号: | CN109918499A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 金戈;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 林彦之 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感分类 计算机设备 存储介质 文本分类 词向量 标签分类 分类需求 情感特征 输入文本 损失函数 向量形式 等权重 分类器 连接层 校准 构建 加成 两组 输出 学习 更新 转化 | ||
本发明提供一种文本分类方法、装置、计算机设备及存储介质,包括以下步骤:S10:构建词向量,将输入文本转化为向量形式;S20:将S10中的词向量分别输入到至少两组情感分类器中,并将所述情感分类器的各自全连接层输出到各自的loss函数中,各所述情感分类器根据业务不同的分类需求选择不同情感特征;S30:交叉学习并更新所述情感分类器,根据所述情感分类器的数量,将各所述loss函数按照等权重加成到LOSSes中作为整体损失函数,通过多个分类器的交叉学习可以实现多标签分类,具有更好的泛化或者是校准作用。
技术领域
本发明属于自然语言处理领域,涉及一种基于语境词向量和深度学习的文本分类方法。
背景技术
在互联网快速发展的今天,互联网信息呈现爆炸式增长,情感分析或意见挖掘已经渗入到人们生活的方方面面,京东、淘宝、亚马逊等互联网在线购物平台,在线音乐平台、微博、推特等社交网站、新闻传媒以及政治选举等等。例如,网上购物已经成了人们生活的潮流,针对用户在购物网站的评论进行观点挖掘及情感分析,不仅可以帮助用户更好的了解和选购产品,还能帮助产品制造商理解用户的需求,改进自身产品;在微博中,同样也可以对热搜事件中用户的观点和情感进行挖掘和处理,从而观察出现代人们的生活品质、爱好等
现阶段对于文本分类,如情感分析等大多是某一方面的分类,通过为每一个分类构建一个单独的模型实习,对于多个方面的分类大多需要采用多个模型或是多个全连接层去连接分类器,存在计算量过大,训练时间耗时久,且精度和泛化能力也达不到需求的问题。
发明内容
本发明的目的是提供一种多损失函数文本分类方法、装置、计算机设备及存储介质,用于解决现有技术存在的问题,具备了更好的学习及泛化能力。
为实现上述目的,本发明提供一种多损失函数文本分类方法,包括以下步骤:
S10:构建词向量,将输入文本转化为词向量形式;
S20:将S10中的词向量分别输入到至少两组情感分类器进行训练,所述情感分类器对所述词向量进行训练后,将各自全连接层分别输出到各自的loss函数中,各情感分类器根据业务不同的分类需求选择不同情感特征;
S30:交叉学习并更新情感分类器,根据情感分类器的数量,将各loss函数按照等权重加成到LOSSes中作为整体损失函数,并根据所述整体损失函数对所述各情感分类器进行更新,直到整体损失函数不再降低为止。
作为一优选方案,所述步骤S10中,使用word2vec构建词向量。
作为一优选方案,所述步骤S20中,设置一级情感分类器与二级情感分类器,所述S1中的词向量作为一级情感分类器与二级情感分类器的输入,并将所述一级情感分类器与二级情感分类器全连接层输出到各自的loss函数中。
作为一优选方案,所述步骤S20中,所述基于TextRNN结合attention机制建立一级情感分类器;
和/或,基于TextCNN建立所述二级情感分类器。
进一步的,所述一级情感分类器中,对TextRNN中每一个节点ht分配了权重αt,使其权重值使其更新为hnewt=αt*ht,以为编码的词向量进行权重加成,所述权重αt为:
其中,ut=tanh(Wwht+bw),Ww、Uw与bw均为Attention的权重与bias。
进一步的,步骤S3中,LOSSes为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910038962.9/2.html,转载请声明来源钻瓜专利网。