[发明专利]一种基于转折句语义块划分机制的情感分类方法有效
申请号: | 201810171490.X | 申请日: | 2018-03-01 |
公开(公告)号: | CN108388654B | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 张玉红;王勤勤;李玉玲;李培培;胡学钢 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205;G06F40/289 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于转折句语义块划分机制的情感分类方法,其步骤包括:1.利用已知的词向量字典,把训练集和测试集中的每条样本表示为词向量矩阵;2.选取合适的卷积核对词向量矩阵进行卷积,提取映射特征向量以实现降维;3.构建转折词字典,并通过查询转折词在样本中的位置,对提取的映射特征进行语义划分,提取每个划分块中的最重要信息,形成最终特征空间;4.基于所述最终特征空间训练分类器,并对测试集中的样本进行分类。本发明基于构建的转折词字典,实现了句子语义块的划分,能获得每段中的重要语义信息,同时考虑了句子的位置结构特征,从而能够提高文本情感分类的正确性。 | ||
搜索关键词: | 一种 基于 转折 语义 划分 机制 情感 分类 方法 | ||
【主权项】:
1.一种基于转折句语义块划分机制的情感分类方法,其特征是按如下步骤进行:步骤1:训练集和测试集中样本的词向量表示步骤1.1构建词向量字典D从网上获取外部语料并进行训练,得到词向量字典D,用于查询训练集和测试集中词语的词向量;词向量的维度设定为|V|;步骤1.2对训练集和测试集中样本进行词向量表示获取|I|条评论文本构成训练集DS={s1,s2,…si…s|I|}以及|I|条评论文本构成测试集DT={t1,t2,…,tj,…t|J|},其中si和tj分别表示所述训练集DS和测试集DT中的第i个训练样本和第j个测试样本,并有:表示所述训练集DS中第i个训练样本si中的第m个单词;表示所述测试集DT中第j个测试样本tj中的第n个单词;i=1,2,…,|I|,m=1,2,…,M,j=1,2,…,|J|,n=1,2,…,N;根据所述词向量字典D,查询所述训练集DS中第i个训练样本si中的第m个单词的词向量为得到所述训练集DS中第i个训练样本si的词向量矩阵为一个M×|V|的矩阵;同理得到所述测试集DT中第j个测试样本tj的词向量矩阵表示所述测试集DT中第j个测试样本tj中的第n个单词的词向量;步骤2:设置卷积核并进行卷积计算步骤2.1设置K种不同大小尺寸的卷积核集合,记为{W1,W2,…,Wk,…,WK}其中表示高为hk,宽为nk的第k种尺寸卷积核集合,表示hk×nk的矩阵;并有表示第k种尺寸卷积核集合中第g个卷积核,并进行随机初始化;步骤2.2以所述第g个卷积核为滑动窗口,利用式(1)对所述第g个卷积核和所述第g个卷积核覆盖下的第i个训练样本si的词向量矩阵Si的第τ到第τ+h‑1之间的片段进行卷积操作,得到单一特征映射向量中第τ个值从而得到单一特征映射向量则由所述K种尺寸的卷积核与第i个训练样本si的词向量矩阵Si进行卷积操作,得到第i个训练样本si的词向量矩阵Si的特征映射向量式(1)中,表示当前滑动窗口覆盖下的第τ到第τ+h‑1之间的向量矩阵,表示偏置向量,σ(·)为激活函数,表示1×(M‑hk+1)的矩阵,1≤τ≤M‑hk+1;步骤3:构建转折字典ZD,并在所述训练集DS中的第i个训练样本si中查找转折词,根据转折词所在位置将所述特征映射向量对进行分段,并在每个分段中提取最重要的一个特征,则若干个片段得到若干个特征;步骤3.1构建转折字典ZD,并根据所述转折词字典ZD,查找所述训练集DS中第i个训练样本si中是否含有转折词,如果含有所述转折字典ZD中第L个转折词zL,则给出所述第L个转折词zL在所述训练集DS中第i个训练样本si中的位置为步骤3.2根据所述第g个卷积核的尺寸得到所述转折词zL在所述第i个训练样本si的词向量矩阵Si的单一特征映射向量中的位置为并作为划分点;步骤3.3根据所述划分点将所述特征映射向量中的单一特征映射向量分为两段单一特征映射向量,即和步骤3.4利用最大池化方法对两段单一特征映射向量和进行处理,分别得到两段单一特征映射向量中的最大值和并组成第k种尺寸第g个卷积核的最大值对从而得到K×G个最大值对步骤3.5对所述K×G个最大值对进行拼接,由此得到所述第i个训练样本si最终特征表示空间步骤4:基于所述特征表示空间构建分类模型步骤4.1基于伯努利分布设置置零向量为r,且所述置零向量r与特征表示空间为同一维度的元素为0或为1的向量;步骤4.2利用式(2)对所述训练集DS构建softmax分类器O:式(2)中,f(·)为激活函数,Wo为权值参数,bo为另一个偏置向量;步骤4.3利用梯度下降方法对损失函数进行优化,从而对所述softmax分类器O(·)的训练,得到优化后的softmax分类器作为所述分类模型;步骤5利用所述分类模型O*(·)对所述测试集DT中第j个测试样本tj进行情感分类,得到不同情感类别的概率,并以最大概率所对应的情感类别作为最终的情感分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810171490.X/,转载请声明来源钻瓜专利网。