[发明专利]一种科技信息文本分类方法在审

专利信息
申请号: 202011090173.9 申请日: 2020-10-13
公开(公告)号: CN112199501A 公开(公告)日: 2021-01-08
发明(设计)人: 李国徽;袁凌;罗忠敬;陈强;潘鹏 申请(专利权)人: 华中科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06F40/289;G06F40/284;G06N3/04
代理公司: 华中科技大学专利中心 42201 代理人: 尹丽媛;李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 科技 信息 文本 分类 方法
【说明书】:

发明属于文本分类技术领域,具体涉及一种科技信息文本分类方法,包括:基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本粗粒度强分类,得到粗粒度类别;对文本抽取高层语义信息特征,并采用粗粒度类别辅助粗粒度类别对应的细粒度分类器来基于高层语义信息特征对文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该文本的细粒度类别,细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。本发明基于多粒度组合优化进行文本分类,将分类任务进行分解,通过强化简单的子任务性能,高效地提升文本分类任务的准确率和性能。

技术领域

本发明属于文本分类技术领域,更具体地,涉及一种科技信息文本分类方法。

背景技术

长期以来,科技信息一直是推动科技发展的重要因素。随着网络技术和信息处理技术的发展,信息的产生形式和获取渠道日益丰富,使得数据呈现指数式增长,科技信息的来源已呈现出多源、异构、多模态的基本特征。当今社会的科技信息来源主要包括科研机构和科技部门进行信息采集整理后经过一定文字化描述和规范化处理后的文字数据,另外还包括互联网中的新闻、论坛中的相关数据。

因此,面对大规模、纷繁复杂、结构多样以及组织混乱的科技信息,如何高准确率及高效对其分类,以能够有效地对数据进行组织与管理,是一个值得关注的问题。此外,面向领域的智能文本分类便于后续对该类文本数据进行进一步地深度挖掘与综合分析,从而为科技发展态势研究奠定基础。然而,已有的文本分类算法如基于知识工程的方法、基于机器学习的方法等还存在着模型学习和分类过程严重依赖于专家等外在因素以及分类准确率取决于样本训练集的质量、分类模型参数的学习与不同损失函数的选择等问题,使得单一采用这些算法造成了分类效果缺乏客观性、精确度难以保证以及泛化能力较差而无法直接应用于海量科技信息的分类任务。

发明内容

本发明提供一种科技信息文本分类方法,用以解决现有科技信息文本分类方法存在的分类准确度不高的技术问题。

本发明解决上述技术问题的技术方案如下:一种科技信息文本分类方法,包括:

基于每个待分类的科技信息文本的文本特征,对该科技信息文本进行粗粒度弱分类,若分类结果不准确,对该科技信息文本进行粗粒度强分类,最终得到该科技信息文本的粗粒度类别;

对该科技信息文本抽取高层语义信息特征,并采用所述粗粒度类别辅助所述粗粒度类别对应的细粒度分类器来基于所述高层语义信息特征对该科技信息文本进行细粒度弱分类,若分类结果不准确,采用细粒度强分类器,最终得到该科技信息文本的细粒度类别,其中所述细粒度强分类器为采用科技文本数据微调已在海量文本数据中训练的深度神经网络模型所得。

本发明的有益效果是:本发明提出一种基于多粒度组合优化的文本分类方法,将分类任务进行分解,通过不同粒度,结合不同强度的分类器对文本进行分类,由粗到细,在每一个粒度下由弱到强,以逐步地提升文本分类准确率,同时可以通过强化简单的子任务性能,更加高效地提升文本分类任务的准确率和性能。因此,本方法兼顾准确率和效率,能够有效地实现大规模科技信息文本数据的标准化、智能化以及科学管理化。

上述技术方案的基础上,本发明还可以做如下改进。

进一步,所述粗粒度弱分类具体采用基于决策树规则的文本分类方法,所述粗粒度强分类具体采用fastText方法。

本发明的进一步有益效果是:通过基于规则的文本分类方法对具有显著特征的文本进行粗粒度分类,以高效处理易处理数据。通过fastText方法对基于规则的文本分类方法不能处理的文本进行粗粒度分类,能够较为准确获得粗粒度类别,以提升粗粒度分类的准确率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011090173.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top