[发明专利]一种文本分类方法及装置有效
申请号: | 201811275675.1 | 申请日: | 2018-10-30 |
公开(公告)号: | CN111199155B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 王超;李修鹏;田文宝;赵欣莅;赵东伟;张志朋;樊锐强;刘庆标;尹学正;温连魁 | 申请(专利权)人: | 飞狐信息技术(天津)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/289;G06N3/0464;G06N3/0442;G06N3/045;G06N3/084 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 300280 天津市经济技术开发区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 | ||
本申请提供了一种文本分类方法,基于多维度卷积神经网络模型,分别将目标文本中每个短语转化为相应的短语语义表示向量,其中,每个短语包括多个以词嵌入向量进行语义表示的单词;将目标文本中每个所述短语语义表示向量输入到多粒度长短期记忆模型中进行处理,将多粒度长短期记忆模型中每个隐含层的输出向量的平均值确定为目标文本的分层语义向量;将目标文本的分层语义向量输入到分类模型中进行分类处理,得到目标文本在预设类型集合中的概率分布,将最大概率值对应的类型作为目标文本的类型。本发明将词与词之间的局部语义、以及短语与短语之间的全局语义相结合,增强对自然语言的理解,进一步提高文本分类的准确率。
技术领域
本发明涉及数据处理技术领域,更具体的,涉及一种文本分类方法及装置。
背景技术
目前互联网中有着海量的文本数据,为了使用户可以根据文本类别高效的得到想要浏览的文本数据,需要对文本进行准确分类。
现有的文本分类方法主要包括基于词典方法、基于传统机器学习方法和基于深度学习方法。其中,基于词典方法主要通过制定一系列的词典和规则,对文本进行段落拆借、句法分析,作为文本分类依据,分析结果依赖于规则的制定和句子拆分的方法,不具有方法上的普适性;基于传统机器学习的方法对训练文本进行人工标注,然后进行有监督的机器学习过程,分类结果依赖于特征表示的选取,不具有数据上的普适性。近年来,由于深度学习本身具有的高效性、可塑性和普适性,受到了众多学者的青睐,越来越多的科研人员将深度学习应用在自然语言处理等领域中,并取得了显著成果。
现有的基于深度学习的文本分类方法已经取得了显著成果,但从词特征抽取方法、文本语义表示等方面考虑,主要存在以下几种问题:
(1)现有的词向量获取方法大多根据词频抽取词语的特征,丢失了词序和词语的语义信息,得到的结果不能满足语义分析的需要。
基于词频获得词语的特征向量方法假定:对于一个文本,忽略词序和句法,将其仅仅看成一个词集合,或者说是一个词的组合,文中每个词的出现都是独立的,不依赖于其他词是否出现;或者说在作者在撰写一篇文章时,在任意一个位置选择一个词汇都不受前面句子的影响独立选择。这种假设虽然对自然语言处理进行了简化,便于模型化,但文本语义分析研究的目的恰恰是使用计算机方法从词语的属性出发获得整篇文章的类别,词语的顺序和语义信息是分析过程需要考虑的重要影响因素,因此该假定是不合理的。
(2)对整个文本的建模时,没有充分考虑整篇文章的结构,忽略了文本的“局部语义”和“全局语义”的关系。
文本分析过程中,如何对文档中句子间的逻辑关系进行建模是一个亟待解决的问题。作为文本分析的研究对象,文本具有“词语-句子-篇章”的组成结构,现存的文本分析方法大多忽略了这一层级关系,直接以词语为基本单位进行建模,词汇虽然能描述语言的基本信息,但单一的词汇缺少关联,相同词汇的不同组合得到的语义不同,直接以词语作为文本分析建模的唯一粒度显然是不合理的。
发明内容
有鉴于此,本发明提供了一种文本分类方法及装置,将词与词之间的局部语义、以及短语与短语之间的全局语义相结合,增强对自然语言的理解,进一步提高文本分类的准确率。
为了实现上述发明目的,本发明提供的具体技术方案如下:
一种文本分类方法,包括:
将目标文本拆分为多个短语,并将每个短语拆分为多个单词;
基于多维度卷积神经网络模型,分别将目标文本中每个短语转化为相应的短语语义表示向量,其中,每个短语包括多个以词嵌入向量进行语义表示的单词;
将所述目标文本中每个所述短语语义表示向量输入到多粒度长短期记忆模型中进行处理,将所述多粒度长短期记忆模型中每个隐含层的输出向量的平均值确定为所述目标文本的分层语义向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于飞狐信息技术(天津)有限公司,未经飞狐信息技术(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811275675.1/2.html,转载请声明来源钻瓜专利网。