[发明专利]电气图纸文本分类方法、系统、装置及介质在审
申请号: | 202010360978.4 | 申请日: | 2020-04-30 |
公开(公告)号: | CN111597334A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 陈韬文 | 申请(专利权)人: | 陈韬文 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/31;G06F40/166;G06F40/242 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510006 广东省广州市番禺区小谷围*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电气 图纸 文本 分类 方法 系统 装置 介质 | ||
本发明公开了电气图纸文本分类方法、系统、装置及介质,方法包括:获取历史电气图纸数据;对所述历史电气图纸数据进行预处理;对预处理后的历史电气图纸数据进行分词处理,得到词集合;对所述词集合进行词频统计,构建电气图纸字典;获取待分类电气图纸数据;根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理;根据所述电气图纸字典,通过构建得到的分类模型对所述标签化处理后的各个词进行分类,得到所述待分类电气图纸数据中文本的分类结果。本发明大大提高了分类效率,同时降低了人工成本,可广泛应用于人工智能技术领域。
技术领域
本发明涉及人工智能技术领域,尤其是电气图纸文本分类方法、系统、装置及介质。
背景技术
在电气行业,成套电气报价员需要根据从用户拿到的CAD电气设计图中列出元器件的清单列表。列清单是成套电气报价中最重要的一个环节,是成套电气报价的基础。作为一个有些枯燥繁琐但又需要有一定专业领域知识的环节,传统的成套电气报价员的报价方式主要是通过手工输入Excel的方式或者用软件的方式把元器件文本扒取出来,填写出对应的元器件类型,汇总出报价清单,最后根据这样的清单进行报价。这种传统的方式,机械繁琐,效率低下,严重依赖于“人”的操作,还很容易出错,很大程度上限制了报价员报价的速度与精度,不能满足用户及公司的对快速精准报价方面要求,也影响了工程的进度,严重的甚至可能导致企业竞标失败或亏损。
电气文本分类问题是智能识别电气图纸中最基础核心的工作之一。其中,包含两大类文本,元器件文本和非元器件文本,非元器件文本主要包括:进线端文本、终端文本、配电箱参数文本、相序文本、回路编号文本及电线文本;元器件文本的种类更多,主要的有:双电源自动转换开关、微型断路器、塑壳断路器、熔断器、交流接触器、热继电器、浪涌保护器、电度表、控制变压器、负荷隔离开关、漏电微型断路器、漏电塑壳断路器、KB0控制与保护开关、时控开关、电流互感器、指示灯、智能照明模块等。在种类繁多的电气文本中,依靠专家规则和软件程序的硬编码,难以完全的覆盖所有的文本和类别,一些电气设计师对相同的实体描述可能存在差异和错漏,更是传统规则算法难以处理的。在电气行业人工智能领域,还没有专门针对电气图纸文本智能分类的行之有效的方法。
发明内容
有鉴于此,本发明实施例提供一种成本低且效率高的电气图纸文本分类方法、系统、装置及介质。
本发明的第一方面提供了一种电气图纸文本分类方法,包括:
获取历史电气图纸数据;
对所述历史电气图纸数据进行预处理;
对预处理后的历史电气图纸数据进行分词处理,得到词集合;
对所述词集合进行词频统计,构建电气图纸字典;
获取待分类电气图纸数据;
根据所述电气图纸字典,将所述待分类电气图纸数据中提取的各个词进行标签化处理;
根据所述电气图纸字典,通过构建得到的分类模型对所述标签化处理后的各个词进行分类,得到所述待分类电气图纸数据中文本的分类结果。
在一些实施例中,所述对所述历史电气图纸数据进行预处理,包括:
将数据中的特殊字符替换为分隔符;
将数据中的英文字符转换为小写字符;
将数据中的文本长度不合格的字符进行过滤处理。
在一些实施例中,所述对预处理后的历史电气图纸数据进行分词处理,得到词集合,包括:
按照电气元器件的名称对预处理后的历史电气图纸数据进行第一分词;
按照非元器件的名称对预处理后的历史电气图纸数据进行第二分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈韬文,未经陈韬文许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010360978.4/2.html,转载请声明来源钻瓜专利网。