[发明专利]一种电网检修单的文本分类方法、装置、设备及存储介质在审
申请号: | 202210270317.1 | 申请日: | 2022-03-18 |
公开(公告)号: | CN114625839A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 余勇 | 申请(专利权)人: | 广东电网有限责任公司;广东电网有限责任公司佛山供电局 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈嘉雯 |
地址: | 510600 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电网 检修 文本 分类 方法 装置 设备 存储 介质 | ||
本申请公开了一种电网检修单的文本分类方法、装置、设备及存储介质,方法包括:根据预置比例选取历史检修单中每个句子的关键词集合,历史检修单包括句子类别;将所有的关键词集合按照句子类别进行整合,得到类别关键词集合;对类别关键词集合依次进行全局频数统计和升序排列,得到关键词序列;对关键词序列中前预置数量的关键词进行排名赋值,得到关键词系数序列;根据关键词系数序列和关键词序列对待识别文本语句进行句子评分计算,得到多个评分结果;选取评分结果中最大值对应的句子类别作为待识别文本语句的目标句子类别。本申请解决了现有方法需要大量的训练数据,且无法处理复杂的类间关系,导致结果缺乏准确性和可靠性的技术问题。
技术领域
本申请涉及文本分类技术领域,尤其涉及一种电网检修单的文本分类方法、装置、设备及存储介质。
背景技术
在电力生产中,维护、检修是很重要的一环,检修班的班长常常需要安排工作及嘱咐安全注意事项,并将其写入班前班后会中。而安全注意事项对于某种类型的工作,其表述是恒定不变的,但由于工作任务的表述千差万别,如果能将自然语言表述的工作任务进行分析处理,并准确匹配到相应的安全注意事项,则能大大提高工作安排效率,甚至能自动撰写班前班后会记录。
现有的文本匹配方法中最高效的是基于机器学习的分类方案,但是此方案需要依赖大量的训练数据,对于较为复杂的文本关系很难得到高准确性的匹配结果,从而导致实际的应用效果较差。
发明内容
本申请提供了一种电网检修单的文本分类方法、装置、设备及存储介质,用于解决现有机器学习的匹配方法需要大量的训练数据,且无法处理复杂的类间关系,导致结果缺乏准确性和可靠性的技术问题。
有鉴于此,本申请第一方面提供了一种电网检修单的文本分类方法,包括:
根据预置比例选取历史检修单中每个句子的关键词集合,所述历史检修单包括句子类别;
将所有的所述关键词集合按照所述句子类别进行整合,得到类别关键词集合;
对所述类别关键词集合依次进行全局频数统计和升序排列,得到关键词序列;
对所述关键词序列中前预置数量的关键词进行排名赋值,得到关键词系数序列;
根据所述关键词系数序列和所述关键词序列对待识别文本语句进行句子评分计算,得到多个评分结果;
选取所述评分结果中最大值对应的句子类别作为所述待识别文本语句的目标句子类别。
优选地,所述根据预置比例选取历史检修单中每个句子的关键词集合,所述历史检修单包括句子类别,之前还包括:
对历史检修单中的每个句子进行类别标注处理,得到句子类别。
优选地,所述根据预置比例选取历史检修单中每个句子的关键词集合,所述历史检修单包括句子类别,包括:
对历史检修单中的每个句子进行人工智能分词,得到初始分词集合;
根据所述初始分词集合统计句子中每个词语的全局频数,并升序排列,得到每个句子对应的分词序列;
根据预置比例在所述分词序列中顺序选取关键词,得到关键词集合。
优选地,所述对所述关键词序列中前预置数量的关键词进行排名赋值,得到关键词系数序列,包括:
获取所述关键词序列中的前预置数量的关键词;
将所述关键词的倒序排序序号作为系数依次赋值给所述前预置数量个关键词,并将非前所述预置数量的关键词的系数赋值为0,得到关键词系数序列。
本申请第二方面提供了一种电网检修单的文本分类装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司;广东电网有限责任公司佛山供电局,未经广东电网有限责任公司;广东电网有限责任公司佛山供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210270317.1/2.html,转载请声明来源钻瓜专利网。