[发明专利]一种将深度学习与数学分析相结合的句子分类改进方法有效
申请号: | 201810812774.2 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109101584B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 全哲;王静;刘彦;林轩;李传莹 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 深圳市兴科达知识产权代理有限公司 44260 | 代理人: | 王翀;贾庆 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 数学分析 相结合 句子 分类 改进 方法 | ||
本发明提供了一种将深度学习与数学分析相结合的句子分类改进方法,该方法结合了深度学习和数学分析在处理句子问题中的优势,即长短时记忆网络(LSTM)能将句子中词的词序信息和上下文信息都考虑进去,反词频权重(AWF)能突出词在语料库中的统计特征,通过数学方法将原始向量表示S0减去S0在第一主成成分V1上的投影,得到改进后的句子特征向量表示S1,将S1作为softmax层的输入得到句子分类结果。将这些优势结合在一起,取长补短,有助于句子建模的可靠性得到更好的句子语义特征表示,从而提高句子分类的精度。同样也可用于文本(多个句子)建模的基础,有助于获得更好的文本(多个句子)分类方法。
技术领域
本发明属于短文本分类领域,涉及一种将深度学习与数学分析相结合的句子分类改进方法。
背景技术
对句子分类是自然语言领域最基础的任务之一。对句子分类最大的难点在于句子特征的提取。现有特征提取的方法大概分为三种。第一,传统的句子分类方法,主要先人工提取句子的特征,再用机器学习方法比如支持向量机,朴素贝叶斯等算法进行监督训练然后得到分类器;第二,将句子的每个词用词向量表示,再对句子中的每个词向量的每个维度上进行求和平均建模成句子向量的表示方法,再用一层简单的softmax层进行分类;三是利用深度学习方法通过神经网络自动学习特征将句子建模成句子特征向量再加入softmax层进行分类。第一种人工提取特征会耗费大量的时间和精力,并且提取的特征不一定有用;第二种直接将词向量进行求和平均计算成句子向量的方法使得在与语义无关的方向上具有巨大的分量,并且有些特征会随着求和平均变得不怎么明显,而且忽略了句子的词序问题,从而使得分类效果不佳;第三种方法就忽略了一个句子中所有词在文本的数值特征问题(比如在大语料库上出现的频率,将词向量组成矩阵进行次分量分析(MCA)),并且这种方法也存在着与句子语义无关的巨大分量,导致分类效果不好。
名词解释:
sigmoid操作:即sigmoid函数,被用作神经网络的阈值函数,将变量映射到0,1之间。
LSTM网络:长短期记忆网络,由长短时记忆网络单元组成,通过“门”(gate)来控制丢弃或者增加信息,从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构,由一个sigmoid函数和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间,0代表完全丢弃,1代表完全通过。
AWF权重:是本发明中通过一个公式将词频表示而成的给予特征向量的权重,称之为AWF权重。
Softmax:一个深度学习中的常用函数,softmax函数的其输入是一个向量,而其输出也是一个向量,向量中的每个元素都是介于0和1之间的概率值。
发明内容
本发明提供了一种利用深度学习与数学分析方法相结合的句子分类改进方法,该方法结合了深度学习和数学分析在处理句子问题中的优势,即长短时记忆网络(LSTM)能将句子中词的词序信息和上下文信息都考虑进去,反词频权重(AWF)能突出词在语料库中的统计特征,通过数学方法将原始向量表示S0减去S0在第一主成成分V1上的投影,得到改进后的句子向量表示特征S1,将S1作为softmax层的输入得到句子分类结果。将这些优势结合在一起,取长补短,有助于句子建模的可靠性得到更好的句子语义特征表示,从而提高句子分类的精度。同样也可用于文本(多个句子)建模的基础,有助于获得更好的文本(多个句子)分类方法。
为实现上述目的,本发明的技术方案如下:
一种将深度学习与数学分析相结合的句子分类改进方法,包括以下步骤:
步骤一、获取句子分类数据集,划分训练集和测试集;
步骤二、将维基百科语料库和整个数据集结合在一起进行词向量训练,形成原始词向量表;统计整个维基百科语料库和句子分类数据集中每个词的词频,利用词频生成AWF权重表,以改进词向量表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810812774.2/2.html,转载请声明来源钻瓜专利网。