[发明专利]一种融合文本语气的中文文本特征提取方法有效
申请号: | 201710752000.0 | 申请日: | 2017-08-28 |
公开(公告)号: | CN107729311B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 郭延哺;金宸;姬晨;邓春云;李维华;王顺芳 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 云南凌云律师事务所 53207 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 文本 语气 中文 特征 提取 方法 | ||
1.一种融合文本语气的中文文本特征提取方法,其特征在于,包括以下步骤:
(1)、海量文本词集和语气词集生成
1.1)、文本词集生成
对文本集中的每条文本进行分词,将每条文本的词添加到集合中,最后得到文本词集,
1.2)、文本语气词集生成
提取每条文本中的语气词,将语气词添加到集合中,最后得到文本数据中的语气词集,
(2)、词嵌入模型构建
2.1)、文本词向量模型构建
用模型训练文本词集得到文本中每个词的维词向量,个词向量组成行列的文本词向量矩阵;
2.2)、文本语气向量模型构建
用模型训练语气词集得到文本中每个语气词的
(3)、文本词表示模型构建
3.1)、文本初始向量生成
从文本词向量矩阵 获取一条文本的向量表示;其中表示该文本的词数目,表示文本的第个词的向量表示,向量属于维向量空间;
3.2)、文本词的上下文语义向量生成
将文本表示输入双向长短期记忆网络层也叫Bi-LSTM层逐字处理;输出文本中的第
3.3)、文本词模型构建
文本
(4)、文本表示模型构建
4.1)、2维卷积1维池化模块
4.1.1)、文本特征的2维卷积
文本词嵌入表示有时间步长维度和特征向量维度,将文本表示H传入2维卷积层,也就是在文本表示的时间步长维度和特征向量维度进行卷积运算;2维卷积器为,表示卷积器
4.1.2)、文本特征向量维度1维池化
将卷积层得到文本的中间表达传入1维最大池化层,仅在文本特征的时间步长维度上进行最大池化运算,即在文本表示的词的维度上获取最大特征值得到该条文本表示;
4.1.3)、文本特征的2维卷积
将经过1维池化得到的文本表示输入4.1.1) 文本特征的2维卷积,即重复 步骤4.1.1) 文本特征的2维卷积 得到第
4.1.4)、文本语气特征生成
从文本语气词向量矩阵T中获取文本中的语气词向量,组成
4.2)、文本表示生成
4.2.1)、文本语气特征融合
将第
4.2.2)、文本表示强化
将第
2.根据权利要求1中的特征提取方法,其特征在于;
(1)、神经网络权重、偏差的初始化采用小随机数权重初始化;
(2)、在2维卷积、1维池化操作后都采用dropout策略,即使神经元的激活值以一定的概率值停止工作,以达到避免过拟合的效果;模型训练过程中以交叉熵损失最小化为目标,反向传播更新每层的权重与偏差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710752000.0/1.html,转载请声明来源钻瓜专利网。