[发明专利]一种融合文本语气的中文文本特征提取方法有效
申请号: | 201710752000.0 | 申请日: | 2017-08-28 |
公开(公告)号: | CN107729311B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 郭延哺;金宸;姬晨;邓春云;李维华;王顺芳 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 云南凌云律师事务所 53207 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种融合文本语气的中文文本特征提取方法,实现从变长文本中获取融合语气特征、句法特征和语义特征的文本特征表示。首先构建文本词集和语气词集,将文本词集和语气词集转换成词嵌入形式,得到对应的向量模型;其次,依据文本词嵌入表示的时间步长维度和特征维度筛选文本特征,并将语气特征融入到选取的文本特征的时间步长维度上,获得准确表示语义的文本特征表示。本发明充分利用语气词对文本语义的贡献,将语气特征、句法特征和语义特征融合到文本特征表示之中,且该文本特征表示具有低维和连续的特点,不仅可以更好地表示文本语义,也能更有效地支持文本分析、语言翻译、关系抽取等自然语言处理任务。 | ||
搜索关键词: | 一种 融合 文本 语气 中文 特征 提取 方法 | ||
【主权项】:
一种融合文本语气的中文文本特征提取方法,其特征在于,包括以下步骤:(1)、海量文本词集和语气词集生成1.1)、文本词集生成对文本集中的每条文本进行分词,将每条文本的词添加到集合V1中,最后得到文本词集,表示文本集的词数目;1.2)、文本语气词集生成提取每条文本中的语气词,将语气词添加到集合中,最后得到文本语气词集,表示文本集合语气词的数目;其中是可能的语气词集E的子集,E={唉,了,哪,呢,呐,否,呵,哈,不,呸,吧,罢,呗,啦,唻,嘞,哩,咧,咯,啰,喽,吗,嘛,么,阿,啊,呃,哇,呀,也,耶,哟,欤,呕,噢,呦,一定,必定,难道,何尝,大概,也许,果然,果真,难怪,原来,不中,罢了,不成,得了,而已,了得,也罢,而已,也好,就是,一般,再说,不过,怪不得,就是了,不得了};(2)、词嵌入模型构建2.1)、文本词向量模型构建用Skip‑gram模型训练文本词集得到每个词的k维词向量,p个词向量组成行列矩阵,;2.2)、文本语气向量模型构建用CBOW模型训练语气词集得到每个语气词的k维词向量,q个语气词向量组成行列矩阵,;(3)、文本词表示模型构建3.1)、文本初始向量生成从文本词向量矩阵M获取第i条文本的向量表示;其中0<i<L,表示文本的词数目,表示文本的第(0<j<n)个词的向量表示,:词向量属于维向量空间;3.2)、文本词的上下文语义向量生成将文本输入Bi‑LSTM(双向长短期记忆网络)层,Bi‑LSTM层逐字处理;输出文本中的第j个词的正向语义和逆向语义;3.3)、文本词模型构建文本中的第j个词的词向量、和向量进行运算,得到文本中第个位置的词的特征表示;那么文本的特征表示为二维向量,,表示文本的词数目;(4)、文本表示模型构建4.1)、2维卷积1维池化模块4.1.1)、文本特征的2维卷积文本词嵌入表示有时间步长维度和特征向量维度,将文本向量传入2维卷积层,也就是在文本表示的时间步长维度和特征向量维度进行卷积运算;2维卷积器为,表示卷积器在时间步长维度上对个词,特征向量维度上对个特征进行卷积运算,卷积操作在两个维度方向移动的步长都为1;得到第i条文本的中间表示,那么L条文本表示为;4.1.2)、文本特征向量维度1维池化将卷积层得到的中间表达传入1维最大池化层,仅在文本特征的时间步长维度上进行最大池操作;即在文本表示的词的维度上获取最大特征值;4.1.3)、文本特征的2维卷积重复一次步骤4.1.1) 2维卷积得到文本新的特征表示,那么L条文本新的表示为;4.1.4)、文本语气特征生成从语气词向量空间模型T中获取第i条文本的语气词向量组成r个语气词的二维向量,向量集表示;其中0<i<L,为文本数目,为第个词的特征表示;4.2)、文本表示生成4.2.1)、文本语气特征融合将第i条文本的语气向量与其特征表示进行融合;即将语气词向量放在文本特征之后,获得到融合语气的新的文本特征表示;4.2.2)、文本表示强化将第i条文本的特征再次进行1维最大池化操作,即在文本表示的时间步长维度上进行最大池化操作,得到定长维度的文本特征表示;即选取第i条文本的词的维度上的最大特征值;提取到第i条文本的融合文本语气的文本特征表示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710752000.0/,转载请声明来源钻瓜专利网。