[发明专利]仪器设备功能标签化处理方法有效
申请号: | 202110685031.5 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113297382B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 王晓蒙;唐小琴;肖国强;马文卓;勾鑫晔 | 申请(专利权)人: | 西南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/335 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 胡博文 |
地址: | 400715*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 仪器设备 功能 标签 处理 方法 | ||
本申请提供一种仪器设备功能标签化处理方法,所述方法包括如下步骤:S1:提取目标仪器设备的功能文本信息;S2:从功能文本信息中解析关键词,获得关键词集合;S3:将所述关键词集合进行分类,构建功能要素分类表,并根据所述功能要素分类表确定候选标签集合;S4:构建标签评选模型,将所述候选标签集合输入所述评选模型;S5:确定仪器设备标签。本申请提供的仪器设备功能标签化处理方法,通过自然语言处理、规则匹配、机器学习等技术从原始仪器设备功能描述数据中提取各类标签,实现代表仪器设备功能的核心概念的结构化、规范化表示,实现更高校的仪器信息归类与检索,同时为科技资源信息检索及领域知识图谱建设提供数据支持。
技术领域
本发明涉及科技资源管理技术领域,尤其涉及一种仪器设备功能标签化处理方法。
背景技术
科技资源是从事科技活动的人力、物力、财力以及组织、管理、信息等软、硬件要素的总称,或是强调其中某些要素的集合。它为科技活动提供了物质保障,也为科技管理、决策和科学研究提供了基本性条件保障,科技资源主要包括大型科技设置及仪器设备、实验室、科技成果、科技文献资料及科技基础数据等。经过多年的积累,我国拥有了丰富的科技资源,这些资源具有结构复杂、类型多样、数量巨大、地理分布广的特点,为发挥科技资源的作用,必须对其进行合理组织和管理,通过数字化、结构化和规范化形成有一定内在关系的、可共享的科技资源信息。但现有科技资源目前的科技资源信息表数据规范性较差,不利于信息检索和管理;此外,传统的文本信息检索主要通过全文检索技术构建,对信息深层语义的挖掘存在困难。
因此,亟需一种能对科技资源中的仪器设备进行结构化和规范化表示的处理方法。
发明内容
有鉴于此,本发明提供一种仪器设备功能标签化处理方法,其特征在于:所述方法包括如下步骤:
S1:提取目标仪器设备的功能文本信息,即从现有数据中提取含有目标仪器功能描述的文本信息;
S2:从功能文本信息中解析关键词,获得关键词集合;
S3:将所述关键词集合进行分类,构建常用关键词分类表,并根据所述常用关键词分类表确定候选标签集合;
其中,分类的类型包括功能、对象、结果和其他;
S4:构建标签评选模型,将所述候选标签集合输入所述评选模型;
S5:根据所述评选模型输出各个类型的候选标签的概率,并按照所述各个类型概率从大到小进行排序,按照预设关键词数量在排序中从上到下选取对应的候选标签为仪器设备标签。
进一步,所述标签评选模型采用朴素贝叶斯法,其中,朴素贝叶斯法的特征变量为以四个类型功能、对象、结果和其他中三个类型为输入,剩余的一个类型为输出。
进一步,所述步骤S1中所述功能文本信息包括将目标仪器设备的编码转换为文本信息和将符号转换为文本信息;
所述将符号转换为文本信息包括将化学元素符号转换为与元素符号对应的文本信息,以及将计量单位符号转换为与所述计量单位符号对应的文本信息。
进一步,所述步骤S2包括:
S21:构建通用词库和弃用词库;
S22:采用分词算法对所述功能文本信息进行分词,并根据所述分词结果确定词频;
S23:根据所述词频从大到小进行排序,并删除低于预设频次的词;
S24:将步骤S23处理后的词进行二次过滤,即删除骤S23处理后的词中包括的通用词库和弃用词库中的词;
S25:经过二次过滤后剩下的词为关键词,并形成所述关键词集合。
进一步,所述步骤S3包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南大学,未经西南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110685031.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:下肢足踝部康复器械装置
- 下一篇:一种土壤改良剂及其制备方法