[发明专利]基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质在审
申请号: | 202211526404.5 | 申请日: | 2022-12-01 |
公开(公告)号: | CN115794985A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 费敏锐;吴限;周文举;仵大奎;易开祥;徐昱琳 | 申请(专利权)人: | 上海大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/35;G06N3/006;G06Q50/10 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 优化 算法 科技服务 资源 数据处理 方法 系统 及其 计算机 可读 存储 介质 | ||
本发明提供了一种基于智能优化算法的文本数据处理方法,该数据处理方法能够将科技资源的文本数据进行数据提取、数据预处理、特征选择和特征分析,最终得到准确率最高、特征量少的特征向量和词库数据,有效提高了运行分类器的效率和性能。还涉及一种相应的系统,包括:数据提取模块,从科技服务资源数据库中提取各类服务数据并根据行业添加分类标签;数据预处理模块,清洗原始数据,处理得到特征向量和特征词库并根据交叉验证划分训练和测试数据集;特征选择模块,使用二进制榕树生长优化算法进行特征选择,以获得分类准确率及特征量最优的解集;特征分析模块,从初始文本特征向量的特征词中得到最优特征词,并显示在特征热力图和词云中。最终处理后的数据实现将科技服务资源文本数据转换为有利于分类器处理的最优特征向量。
技术领域
本发明属于大数据技术领域,尤其涉及科技服务资源数据处理领域,具体涉及一种基于优化算法的科技服务资源数据处理方法、系统及其计算机可读存储介质。
背景技术
科技服务业作为现代服务业的组成部分,已成为带动经济增长和科技进步不可或缺的一环。科技资源是科技服务和技术创新各种生产要素的集合,其数量和质量是影响和制约科技活动的重要因素。不同于传统的商品服务资源,科技服务涉及供需双方包括需要进行开发研发服务、检验检测等科技服务的各类中小型企业、政府、各大高校及科研机构等。在科技服务资源数据处理中,大量科技服务资源涌现,其资源包括人才库、技术成果、知识产权、仪器设施、政策等资源类型,其类别多样化和复杂化,对这些资源数据进行有效处理是提供科技服务的基础。
科技服务资源由半结构或非结构化的文本数据构成,对这类文本的自动化整合涉及到自然语言处理、数据挖掘、机器学习和信息检索等多种技术。科技资源处理需要利用特征提取(Feature Selection,FS)和文本挖掘算法从海量科技文本中挖掘潜在特征,并按照文本特征和类型进行归类处理。在工程应用中,文本作为一种重要数据类型,包含有大量的特征信息,科技服务资源的聚合需要文本的特征选择算法。与传统的特征选择算法不同,智能优化算法不需要领域知识,也不需要对搜索空间做任何假设。特征选择可以认为是选择候选特征的最佳子集,使得机器学习模型达到优越性能的过程。因此智能优化算法可广泛用于最优化问题求解,且已被应用在文本挖掘领域中的特征选择求解。
近年来,为突破经典优化算法需要领域知识和空间假设的局限,多种受自然现象启发的智能优化算法应运而生,如遗传算法、粒子群优化、差分进化算法等。对于特定数据集,其FS问题可视为挑选最佳候选子集以使得机器学习模型达到优越性能的过程。因此智能优化算法可应用在文本挖掘领域中的FS求解,有效排除不相关特征和冗余特征的影响,相比传统的特征选择方法具有更好的准确率。在实际的科技服务资源文本特征选择问题中,由于样本复杂、数据量大、特征矩阵高度稀疏,使得常见优化算法在该问题中选择效率不足,同时对文本间的相似度或类别隶属度等未能高效处理,因此有必要对科技服务资源的文本文档特征处理方法进行改进。
目前,针对科技服务资源数据处理方法,中国专利申请号“CN109447266B”公开了“一种基于大数据的农业科技服务智能分拣方法”;中国专利申请号“CN201710181572.8”公开了“一种文本分类特征选择方法”;中国专利申请号“CN201810315024.4”公开了“粒子群优化的文本特征选择方法”;中国专利申请号“CN201410795989.X”公开了“一种改良的文本分类特征选择方法”;中国专利申请号“CN202010313160.7”公开了“科技资源数据服务系统”;中国专利申请号“CN201710889732.4”公开了“一种企业科技技术资源整合型服务系统”。在已公开的发明或文献中,未提到使用基于本发明的优化算法的科技服务资源数据处理方法的实例。
发明内容
本发明提供了一种基于智能优化算法的文本数据处理方法,并应用于科技服务资源数据处理问题中,该数据处理方法能够将科技资源的文本数据进行数据提取、数据预处理、特征选择和特征分析,最终得到准确率最高、特征量少的特征向量和词库数据,提高了运行分类器的效率和性能。为此,所采用的技术方案为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211526404.5/2.html,转载请声明来源钻瓜专利网。