[发明专利]一种融合命名实体识别的高技术文本分类方法及系统有效
申请号: | 202011013637.6 | 申请日: | 2020-09-24 |
公开(公告)号: | CN112163089B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 王浩伊;杨军;钱宝生;钟晨;涂鑫 | 申请(专利权)人: | 中国电子科技集团公司第十五研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06N3/0442 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 崔玥 |
地址: | 100083 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 命名 实体 识别 高技术 文本 分类 方法 系统 | ||
本发明涉及一种融合命名实体识别的军事高技术文本分类方法及系统,包括:确定文本向量,输入至BiLSTM网络结构中,得到文本序列的隐向量;对原始文本分类模型进行训练,计算当前文本在各个类别中所占比例;对原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;基于训练好后的命名实体识别模型抽取分类后的文本中的专业术语,得到术语列表L;确定L中的每个元素在各类别词典中分别出现的频率和,并转换为占比;基于当前文本在各个类别中所占比例融合文本中出现的专业术语在词典中的占比通过权重进行分类。本发明中的上述方法能够一定程度上解决专业术语特征表示欠缺对分类结果所带来的影响,集成两种算法能够有效提升文本分类的准确性。
技术领域
本发明涉及文本分类领域,特别是涉及一种融合命名实体识别的高技术文本分类方法及系统。
背景技术
随着网络资源在当今社会中越来越庞大,如何能在海量级的文本信息中更有效率地挖掘出我们所需要的信息资源变得愈发重要。文本分类作为自然语言处理(naturallanguage processing)的一个分支解决了实际应用中的很多问题,它能够帮助人们更好地管理信息资源,更有效率地获取目标信息。
目前,对于文本分类任务,机器学习和深度学习方法被广泛采纳。在传统的机器学习方法中,文本分类可采用朴素贝叶斯、支持向量机、K近邻、Rocchio等。在深度学习方法中,卷积神经网络(CNN)、双向长短期记忆网络模型(BiLSTM)等神经网络近些年同样在文本分类任务中同样取得了不错的效果。
现阶段,文本分类任务目前采用的一种主流方法为BERT中文预训练模型加入自己的训练数据进行fine-tune操作,后续连接BiLSTM、CNN等神经网络的模型结构,相较于其他方法取得了很好的效果。但是由于经BERT所训练后的预训练模型是通用“语言理解”模型,对于某个特定领域的文本阐述方法或者专业术语并没有充分学习到,所以在解决该领域的文本分类任务上的准确率往往受限。谷歌训练BERT模型使用了16个TPU集群,并花费了4天的时间,因此,现阶段,如果使用自己准备的特定领域语料来训练效果较好的BERT模型成本是非常大的。但是对于特定领域的文本来说,一些在文中出现的关键词或者专业术语在分类任务中也许起着重要的作用,如何能够融合这些词语列表很大概率能够提升文本分类的准确性。
发明内容
本发明的目的是提供一种融合命名实体识别的高技术文本分类方法及系统,能够更加充分地考虑到文本内的专业术语,从而提升文本分类的准确性。
为实现上述目的,本发明提供了如下方案:
一种融合命名实体识别的高技术文本分类方法,所述分类方法包括:
步骤1:确定文本向量;
步骤2:将所述文本向量输入至BiLSTM网络结构中,得到文本序列的隐向量;
步骤3:获取原始文本分类模型;
步骤4:基于所述文本序列的隐向量对所述原始文本分类模型进行训练;
步骤5:基于训练后的文本分类模型结合softmax函数计算当前文本在各个类别中所占比例;
步骤7:获取命名实体识别的训练数据;
步骤8:执行步骤1-步骤2,得到命名实体识别的训练数据的隐向量;
步骤9:获取原始命名实体识别模型;
步骤10:基于所述命名实体识别的训练数据的隐向量对所述原始命名实体识别模型进行训练,得到训练后的命名实体识别模型;
步骤11:基于训练好后的命名实体识别模型抽取步骤5中分类后的文本中的专业术语,得到术语列表L;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第十五研究所,未经中国电子科技集团公司第十五研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011013637.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中小型电机C型环收口工具装置
- 下一篇:一种MIMO天线及移动通信设备