[发明专利]一种基于多角度的科研项目文本分类装置和方法有效
申请号: | 202110923095.4 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113590827B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 朱华;尹春林;苏蒙;潘侃;杨政;杨莉 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06F40/30;G06N3/0442;G06N3/0464;G06N3/08 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 角度 科研项目 文本 分类 装置 方法 | ||
本申请涉及文本分类技术领域,提供一种基于多角度的科研项目文本分类装置和方法。所述科研项目文本分类装置包括预处理模块、特征编码器、交叉注意力机制模块、残差模块和分类器。本申请针对结构化的科研项目文本,提出了基于交叉注意力机制的多视图项目文本分类模型,该模型基于项目文本的一个主要视图(项目摘要)和两个辅助视图(项目研究内容、项目的目的和意义),通过交叉注意力机制融合多个视图信息,能够有效地提取出语义信息更加丰富的全文本特征,从而提高科研项目文本分类的效率和准确率,加快科研项目文本的自动化管理进程,进而提升科研项目管理的有效性。
技术领域
本申请涉及文本分类技术领域,尤其涉及一种基于多角度的科研项目文本分类装置和方法。
背景技术
文本分类是指机器学习算法根据文本内容将文本划分为预先定义好的类别,其在信息检索和信息存储上发挥着重要的作用。电网作为信息资源密集型企业,积累了大量来源可靠且具有较高参考价值的科研项目文本数据,这些科研项目文本数据为文本分类提供了新的应用平台。
文本分类一般包含分词、特征提取和分类器构建三个阶段,其中,特征提取阶段是文本处理最为关键的环节。目前,常见的特征提取方法有TF-IDF模型、word2vector模型和BERT模型。其中,BERT模型是Google于2018年提出的,是一种基于Transformer模型建立的预训练模型,该模型的实质是采用自监督方法在海量语料库的基础上学习语义特征表示。BERT模型被认定为目前最有效的语义特征提取方法,是由于该模型在自然语言任务中表现良好,其性能优异的原因主要表现在以下两点:其一,采用Transformer Encoder网络结构;其二,结合MLMNSP策略在超大规模数据集进行预训练。
针对结构化的长文本,目前通常先采用BERT模型提取大量带有时序特征的语义向量,然后采用LSTM、TextCNN和HAN等模型对上述语义向量加以处理,提取出全文本的语义特征。TextCNN模型主要通过使用卷积网络来提取项目文本的语义特征,此模型能捕捉到相邻语句的上下文关系;LSTM模型主要通过链式连接的网络结构以及三种门控系统对信息的控制,可以有效地获取文本上下文之间的依赖关系;HAN模型则主要通过采用单词级别和句子级别的注意力机制,能够实现与LSTM类似的效果。但是,当文本的长度较长时,尤其是电网科研项目文本,一般包括6个章节,且每个章节都是一个长文本,若仅仅采用上述方法进行特征提取,则会由于上述方法固有的缺陷,无法有效地提取出全文本的语义特征。
发明内容
为了克服现有技术的不足,本申请旨在提供一种基于多角度的科研项目文本分类装置和方法,以解决现有技术无法有效地提取出全文本的语义特征的问题。
为了实现上述目的,一方面,本申请提供一种基于多角度的科研项目文本分类装置,具体包括:预处理模块、特征编码器、交叉注意力机制模块、残差模块和分类器。
所述预处理模块,用于对科研项目文本进行预处理,获得预处理文本,所述预处理文本包括主视图和辅助视图。
所述特征编码器,用于提取所述主视图和所述辅助视图文本字符串的语义特征,以及用于将提取出的所述主视图和所述辅助视图文本字符串的语义特征转化成特征向量,获得主视图特征和辅助视图特征。
所述交叉注意力机制模块,通过将交叉注意力机制用于所述主视图特征和所述辅助视图特征,获得交叉注意力特征。
所述残差模块,用于融合所述交叉注意力特征和所述主视图特征,获得交叉特征。
所述分类器,用于根据预设的项目类别,对所述交叉特征进行分类识别,获得分类结果,所述分类结果为所述科研项目文本属于所述预设的项目类别的概率值。
进一步的,所述交叉注意力机制模块根据所述主视图特征获得Query,根据所述辅助视图特征获得Key和Value,再利用所述放缩点积注意力机制获得交叉注意力特征,所述交叉注意力机制模块的具体计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110923095.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:排气式燃油滤清器
- 下一篇:一种金属钢管表层毛边去除装置