[发明专利]一种融合文本语气的中文文本特征提取方法有效

专利信息
申请号: 201710752000.0 申请日: 2017-08-28
公开(公告)号: CN107729311B 公开(公告)日: 2020-10-16
发明(设计)人: 郭延哺;金宸;姬晨;邓春云;李维华;王顺芳 申请(专利权)人: 云南大学
主分类号: G06F40/30 分类号: G06F40/30
代理公司: 云南凌云律师事务所 53207 代理人: 董建国
地址: 650091*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 文本 语气 中文 特征 提取 方法
【权利要求书】:

1.一种融合文本语气的中文文本特征提取方法,其特征在于,包括以下步骤:

(1)、海量文本词集和语气词集生成

1.1)、文本词集生成

对文本集中的每条文本进行分词,将每条文本的词添加到集合中,最后得到文本词集,p表示文本集的词数目;

1.2)、文本语气词集生成

提取每条文本中的语气词,将语气词添加到集合中,最后得到文本数据中的语气词集,q表示文本集合语气词的数目;其中是语气词集E的子集,E={唉,了,哪,呢,呐,否,呵,哈,不,呸,吧,罢,呗,啦,唻,嘞,哩,咧,咯,啰,喽,吗,嘛,么,阿,啊,呃,哇,呀,也,耶,哟,欤,呕,噢,呦,一定,必定,难道,何尝,大概,也许,果然,果真,难怪,原来,不中,罢了,不成,得了,而已,了得,也罢,而已,也好,就是,一般,再说,不过,怪不得,就是了,不得了};

(2)、词嵌入模型构建

2.1)、文本词向量模型构建

用模型训练文本词集得到文本中每个词的维词向量,个词向量组成行列的文本词向量矩阵;

2.2)、文本语气向量模型构建

用模型训练语气词集得到文本中每个语气词的k维词向量,q个语气词向量组成qk列的文本语气词向量矩阵T,;

(3)、文本词表示模型构建

3.1)、文本初始向量生成

从文本词向量矩阵 获取一条文本的向量表示;其中表示该文本的词数目,表示文本的第个词的向量表示,向量属于维向量空间;

3.2)、文本词的上下文语义向量生成

将文本表示输入双向长短期记忆网络层也叫Bi-LSTM层逐字处理;输出文本中的第i个词的正向语义和逆向语义;

3.3)、文本词模型构建

文本S中的第i个词的词向量为,正向语义 和逆向语义,首先根据运算求得关键的正向和逆向语义;其次进行运算,得到文本S中第i个位置的词的特征表示;那么该条文本S的特征表示为,n表示文本的词数目;

(4)、文本表示模型构建

4.1)、2维卷积1维池化模块

4.1.1)、文本特征的2维卷积

文本词嵌入表示有时间步长维度和特征向量维度,将文本表示H传入2维卷积层,也就是在文本表示的时间步长维度和特征向量维度进行卷积运算;2维卷积器为,表示卷积器m在时间步长维度上对a个词,特征向量维度上对b个特征进行卷积运算,卷积操作在两个维度方向移动的步长都为1;得到第j条文本的中间表示,那么L条文本特征表示为;

4.1.2)、文本特征向量维度1维池化

将卷积层得到文本的中间表达传入1维最大池化层,仅在文本特征的时间步长维度上进行最大池化运算,即在文本表示的词的维度上获取最大特征值得到该条文本表示;

4.1.3)、文本特征的2维卷积

将经过1维池化得到的文本表示输入4.1.1) 文本特征的2维卷积,即重复 步骤4.1.1) 文本特征的2维卷积 得到第j条文本新的中间特征表示,那么L条文本新的表示为, 第j条文本的表示;

4.1.4)、文本语气特征生成

从文本语气词向量矩阵T中获取文本中的语气词向量,组成r个语气词的向量集;

4.2)、文本表示生成

4.2.1)、文本语气特征融合

将第j条文本的语气向量与其特征表示进行融合;即将语气词向量放在文本特征之后,获得融合语气的该条文本特征;

4.2.2)、文本表示强化

将第j条文本的特征再次进行1维最大池化操作,即在文本表示的时间步长维度上进行最大池化操作,得到定长维度的文本特征表示;即选取第j条文本的词的维度上的最大特征值;提取到第j条文本的融合文本语气的文本特征表示。

2.根据权利要求1中的特征提取方法,其特征在于;

(1)、神经网络权重、偏差的初始化采用小随机数权重初始化;

(2)、在2维卷积、1维池化操作后都采用dropout策略,即使神经元的激活值以一定的概率值停止工作,以达到避免过拟合的效果;模型训练过程中以交叉熵损失最小化为目标,反向传播更新每层的权重与偏差。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710752000.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top