[发明专利]一种融合文本语气的中文文本特征提取方法有效

专利信息
申请号: 201710752000.0 申请日: 2017-08-28
公开(公告)号: CN107729311B 公开(公告)日: 2020-10-16
发明(设计)人: 郭延哺;金宸;姬晨;邓春云;李维华;王顺芳 申请(专利权)人: 云南大学
主分类号: G06F40/30 分类号: G06F40/30
代理公司: 云南凌云律师事务所 53207 代理人: 董建国
地址: 650091*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种融合文本语气的中文文本特征提取方法,实现从变长文本中获取融合语气特征、句法特征和语义特征的文本特征表示。首先构建文本词集和语气词集,将文本词集和语气词集转换成词嵌入形式,得到对应的向量模型;其次,依据文本词嵌入表示的时间步长维度和特征维度筛选文本特征,并将语气特征融入到选取的文本特征的时间步长维度上,获得准确表示语义的文本特征表示。本发明充分利用语气词对文本语义的贡献,将语气特征、句法特征和语义特征融合到文本特征表示之中,且该文本特征表示具有低维和连续的特点,不仅可以更好地表示文本语义,也能更有效地支持文本分析、语言翻译、关系抽取等自然语言处理任务。
搜索关键词: 一种 融合 文本 语气 中文 特征 提取 方法
【主权项】:
一种融合文本语气的中文文本特征提取方法,其特征在于,包括以下步骤:(1)、海量文本词集和语气词集生成1.1)、文本词集生成对文本集中的每条文本进行分词,将每条文本的词添加到集合V1中,最后得到文本词集,表示文本集的词数目;1.2)、文本语气词集生成提取每条文本中的语气词,将语气词添加到集合中,最后得到文本语气词集,表示文本集合语气词的数目;其中是可能的语气词集E的子集,E={唉,了,哪,呢,呐,否,呵,哈,不,呸,吧,罢,呗,啦,唻,嘞,哩,咧,咯,啰,喽,吗,嘛,么,阿,啊,呃,哇,呀,也,耶,哟,欤,呕,噢,呦,一定,必定,难道,何尝,大概,也许,果然,果真,难怪,原来,不中,罢了,不成,得了,而已,了得,也罢,而已,也好,就是,一般,再说,不过,怪不得,就是了,不得了};(2)、词嵌入模型构建2.1)、文本词向量模型构建用Skip‑gram模型训练文本词集得到每个词的k维词向量,p个词向量组成行列矩阵,;2.2)、文本语气向量模型构建用CBOW模型训练语气词集得到每个语气词的k维词向量,q个语气词向量组成行列矩阵,;(3)、文本词表示模型构建3.1)、文本初始向量生成从文本词向量矩阵M获取第i条文本的向量表示;其中0<i<L,表示文本的词数目,表示文本的第(0<j<n)个词的向量表示,:词向量属于维向量空间;3.2)、文本词的上下文语义向量生成将文本输入Bi‑LSTM(双向长短期记忆网络)层,Bi‑LSTM层逐字处理;输出文本中的第j个词的正向语义和逆向语义;3.3)、文本词模型构建文本中的第j个词的词向量、和向量进行运算,得到文本中第个位置的词的特征表示;那么文本的特征表示为二维向量,,表示文本的词数目;(4)、文本表示模型构建4.1)、2维卷积1维池化模块4.1.1)、文本特征的2维卷积文本词嵌入表示有时间步长维度和特征向量维度,将文本向量传入2维卷积层,也就是在文本表示的时间步长维度和特征向量维度进行卷积运算;2维卷积器为,表示卷积器在时间步长维度上对个词,特征向量维度上对个特征进行卷积运算,卷积操作在两个维度方向移动的步长都为1;得到第i条文本的中间表示,那么L条文本表示为;4.1.2)、文本特征向量维度1维池化将卷积层得到的中间表达传入1维最大池化层,仅在文本特征的时间步长维度上进行最大池操作;即在文本表示的词的维度上获取最大特征值;4.1.3)、文本特征的2维卷积重复一次步骤4.1.1) 2维卷积得到文本新的特征表示,那么L条文本新的表示为;4.1.4)、文本语气特征生成从语气词向量空间模型T中获取第i条文本的语气词向量组成r个语气词的二维向量,向量集表示;其中0<i<L,为文本数目,为第个词的特征表示;4.2)、文本表示生成4.2.1)、文本语气特征融合将第i条文本的语气向量与其特征表示进行融合;即将语气词向量放在文本特征之后,获得到融合语气的新的文本特征表示;4.2.2)、文本表示强化将第i条文本的特征再次进行1维最大池化操作,即在文本表示的时间步长维度上进行最大池化操作,得到定长维度的文本特征表示;即选取第i条文本的词的维度上的最大特征值;提取到第i条文本的融合文本语气的文本特征表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710752000.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top