[发明专利]一种科技信息文本分类方法在审
申请号: | 202011090173.9 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112199501A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 李国徽;袁凌;罗忠敬;陈强;潘鹏 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/289;G06F40/284;G06N3/04 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 尹丽媛;李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科技 信息 文本 分类 方法 | ||
本发明属于文本分类技术领域,具体涉及一种科技信息文本分类方法,包括:基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本粗粒度强分类,得到粗粒度类别;对文本抽取高层语义信息特征,并采用粗粒度类别辅助粗粒度类别对应的细粒度分类器来基于高层语义信息特征对文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该文本的细粒度类别,细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。本发明基于多粒度组合优化进行文本分类,将分类任务进行分解,通过强化简单的子任务性能,高效地提升文本分类任务的准确率和性能。
技术领域
本发明属于文本分类技术领域,更具体地,涉及一种科技信息文本分类方法。
背景技术
长期以来,科技信息一直是推动科技发展的重要因素。随着网络技术和信息处理技术的发展,信息的产生形式和获取渠道日益丰富,使得数据呈现指数式增长,科技信息的来源已呈现出多源、异构、多模态的基本特征。当今社会的科技信息来源主要包括科研机构和科技部门进行信息采集整理后经过一定文字化描述和规范化处理后的文字数据,另外还包括互联网中的新闻、论坛中的相关数据。
因此,面对大规模、纷繁复杂、结构多样以及组织混乱的科技信息,如何高准确率及高效对其分类,以能够有效地对数据进行组织与管理,是一个值得关注的问题。此外,面向领域的智能文本分类便于后续对该类文本数据进行进一步地深度挖掘与综合分析,从而为科技发展态势研究奠定基础。然而,已有的文本分类算法如基于知识工程的方法、基于机器学习的方法等还存在着模型学习和分类过程严重依赖于专家等外在因素以及分类准确率取决于样本训练集的质量、分类模型参数的学习与不同损失函数的选择等问题,使得单一采用这些算法造成了分类效果缺乏客观性、精确度难以保证以及泛化能力较差而无法直接应用于海量科技信息的分类任务。
发明内容
本发明提供一种科技信息文本分类方法,用以解决现有科技信息文本分类方法存在的分类准确度不高的技术问题。
本发明解决上述技术问题的技术方案如下:一种科技信息文本分类方法,包括:
基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本进行粗粒度强分类,最终得到该科技信息文本的粗粒度类别;
对该科技信息文本抽取高层语义信息特征,并采用所述粗粒度类别辅助所述粗粒度类别对应的细粒度分类器来基于所述高层语义信息特征对该科技信息文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该科技信息文本的细粒度类别,其中所述细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。
本发明的有益效果是:本发明提出一种基于多粒度组合优化的文本分类方法,将分类任务进行分解,通过不同粒度,结合不同强度的分类器对文本进行分类,由粗到细,在每一个粒度下由弱到强,以逐步地提升文本分类准确率,同时可以通过强化简单的子任务性能,更加高效地提升文本分类任务的准确率和性能。因此,本方法兼顾准确率和效率,能够有效地实现大规模科技信息文本数据的标准化、智能化以及科学管理化。
上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述粗粒度弱分类具体采用基于决策树规则的文本分类方法,所述粗粒度强分类具体采用fastText方法。
本发明的进一步有益效果是:通过基于规则的文本分类方法对具有显著特征的文本进行粗粒度分类,以高效处理易处理数据。通过fastText方法对基于规则的文本分类方法不能处理的文本进行粗粒度分类,能够较为准确获得粗粒度类别,以提升粗粒度分类的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011090173.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蚊子数量预测方法及系统
- 下一篇:一种纸板堆垛及拆垛方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置