[发明专利]基于HD-MSCNN的层次结构文本自动分类方法有效
申请号: | 202010302034.1 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111506728B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 谢斌红;张英俊;赵红燕;潘理虎;马非 | 申请(专利权)人: | 太原科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/0464;G06N3/08 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 郭璐 |
地址: | 030024 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hd mscnn 层次 结构 文本 自动 分类 方法 | ||
本发明提供了一种基于HD‑MSCNN的层次结构文本自动分类框架,该分类框架主要包括四部分:(1)局部共享层;(2)粗粒度分类器C;(3)细粒度层分类器Fsubgt;k/subgt;;(4)概率平均层;在分类器构建阶段采用基于深度学习的多尺度卷积神经网络MSCNN算法,该算法通过残差网络加空洞卷积的网络结构覆盖完整的全局上下文信息,而不是局部上下文信息,增加了模型的容量和性能,同时利用扩展槽机制增强了模型的可扩展性,当加入新的类别时,可快速完成模型升级而不需要重新训练。基于HD‑MSCNN的多层次分类框架具有分类精度高、可扩展性好、鲁棒性强的特点,其在大规模文本分类领域具有更好的性能。
技术领域
本发明涉及文本处理技术,具体涉及一种基于HD-MSCNN的层次结构文本自动分类方法。
背景技术
互联网的日益普产生了大量网络数据,第43次中国互联网络发展状况统计报告显示,2018年的网页总数为2816亿个,相比于2017年增长8.2%。面对如此海量的数据,需要按照一个层次类别目录将这些数据进行组织整理,以更好地访问、管理和利用这些网络资源,而传统的手工分类周期长、成本高、效率低,难以适应信息迅猛增长的实际,因此,实现分类自动化是高效组织大规模网络资源的有效手段。
早期的文本分类是基于知识工程的,需要定义规则来对文本进行分类,这种方法费时费力且需要丰富的领域知识来制定规则。随着机器学习的发展,大量优秀算法被应用于文本分类领域,且成为了当今文本分类领域的主流方法。神经网络早在20世纪80年代就已被提出,随着近年数据量的剧增及硬件运算能力的提升,深度神经网络成为了近几年的研究热点,且在视觉识别、语音识别、自然语言处理等方面取得了巨大的成果,然而卷积神经网络(CNN)只能根据卷积核的大小提取局部特征,容易忽略更远的上下文信息,循环神经网络(RNN)结构模型复杂、参数较多,不容易训练。
深度学习技术在近几年的时间飞速发展,且在计算机视觉、文本分类等诸多领域均已超过了传统机器学习算法。文本资源数据量的急速膨胀,使大规模多层次分类成为了近期的研究热点。深度学习与层次分类的结合,一方面可利用深度学习算法精度高的特性降低层次间的误差传播,另一方面也可将类别的结构信息融入分类框架。虽然在大规模层次分类领域已经取得了丰硕的成果,但是其每个节点的分类模型大部分仍然采用机器学习领域的算法,未充分利用深度学习的优势;层次分类中多利用全局共享信息,当存在大量类别时,全局共享信息是很少的;层次结构分类的误差“膨胀”、可扩展性差的问题仍未得到有效改善。
发明内容
针对现有技术的不足,本发明将层次分类结构与深度学习多尺度卷积神经网络(MSCNN)算法相结合,一方面融入父子节点的结构信息,另一方面提高每个分类节点的分类精度;将全局共享信息改为局部共享信息,即不同的分类节点之间使用不同的结构信息,以将兄弟节点之间的结构信息融入分类框架中;使用交叉的分类策略以减缓误差传播;使用扩展槽机制,便于类别体系的扩展。通过这些组件的组合成为层次结构多尺度卷积神经网络(HD-MSCNN)框架,实现文本信息自动分类任务。
为实现上述目的,本发明提供如下技术方案:
基于HD-MSCNN的层次结构文本自动分类框架,包括下几部分:
(1)局部共享层:采用局部共享信息分类策略,每个分类器都有一个该分类范围内独有的共享层,局部共享信息通过学习兄弟节点间的类别描述信息来促进模型的分类性能,若输入的文本矩阵为n,类别描述信息为则共享层的输出为:
式中,i为兄弟节点的编号,m为兄弟节点的数量,R()表示残差网络;通过局部共享层可将兄弟节点间的结构信息融入分类框架中;
(2)粗粒度分类器C;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原科技大学,未经太原科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010302034.1/2.html,转载请声明来源钻瓜专利网。