[发明专利]一种融合文本语气的中文文本特征提取方法有效
申请号: | 201710752000.0 | 申请日: | 2017-08-28 |
公开(公告)号: | CN107729311B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 郭延哺;金宸;姬晨;邓春云;李维华;王顺芳 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 云南凌云律师事务所 53207 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 文本 语气 中文 特征 提取 方法 | ||
本发明公开了一种融合文本语气的中文文本特征提取方法,实现从变长文本中获取融合语气特征、句法特征和语义特征的文本特征表示。首先构建文本词集和语气词集,将文本词集和语气词集转换成词嵌入形式,得到对应的向量模型;其次,依据文本词嵌入表示的时间步长维度和特征维度筛选文本特征,并将语气特征融入到选取的文本特征的时间步长维度上,获得准确表示语义的文本特征表示。本发明充分利用语气词对文本语义的贡献,将语气特征、句法特征和语义特征融合到文本特征表示之中,且该文本特征表示具有低维和连续的特点,不仅可以更好地表示文本语义,也能更有效地支持文本分析、语言翻译、关系抽取等自然语言处理任务。
技术领域
本发明属于自然语言处理领域,涉及一种融合文本语气的中文文本特征提取方法;基于海量的中文文本,把中文语气特征融入文本特征,更好地表示中文文本语义。
背景技术
每天来自互联网、电子商务等领域的文本数量急剧增加,单靠人工处理和理解这些海量的文本数据,将会耗费大量的成本而得不偿失。为快速并高效地挖掘出海量文本中有用的知识模式,基于人工智能相关技术处理和理解文本成为一个更好的选择;智能分析海量文本的关键是对文本语义特征进行有效地表示,最常用的文本表示方法是词袋模型(Bag of Words,BOW),词袋模型虽然简单实用但是文本表示往往纬度高并且稀疏。TF-IDF(词频-逆文档频率)、概率主题模型(Latent Dirichlet Allocation,LDA)等方法被提出改进文本特征表示方法;然而,这些方法往往假设词对文本的语义贡献和词出现的频率有关。但事实上,在中文文本中,有些词虽然出现的频率不是高,但对文本的语义贡献却是不能忽略的,语气词就是其中之一。词嵌入技术Skip-gram、CBOW(Continuous Bag Of WordsModel)等分布式词表示成为文本分析的一种重要手段,并取得一些很好的成果。随着深度学习研究的开展,卷积神经神经网络(Convolutional Neural Network,CNN)和长短期记忆(Long Short Term Memory,LSTM)神经网络凭借可以智能识别文本中重要信息和获取文本的广泛的语义信息等优势被应用到自然语言处理领域中,并取得了很好的效果。本发明基于中文文本的语气词,首先利用神经网络提取文本中的语义特征;其次智能判别最重要的句法知识和语义特征,提出一种充分利用语气词对语义的贡献的中文文本特征提取方法。
发明内容
本发明的目的在于在现有技术的基础上,公开了一种融合文本语气的中文文本特征提取方法,进一步提高文本分析、语言翻译、关系抽取等自然语言处理任务的准确性。
为实现上述目的,本发明提出一种融合文本语气的中文文本特征提取方法,其特征在于,包括以下步骤:
(1)、海量文本词集和语气词集生成
1.1)、文本词集生成
对文本集中的每个文本进行分词,将文本集中的每条文本的词依次添加到集合中,最后得到文本词集,
1.2)、文本语气词集生成
提取每条文本含有的语气词,将语气词添加到集合中,最后得到文本数据中的语气词集,
(2)、词嵌入模型构建
2.1)、文本词向量模型构建
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710752000.0/2.html,转载请声明来源钻瓜专利网。