[发明专利]工单文本的分类方法、装置、存储介质及计算机设备在审
申请号: | 202210040355.8 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114528399A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 王月宝;黄明星;李银锋;刘海伦;董婉;吴志超;黄平;沈鹏 | 申请(专利权)人: | 北京健康之家科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295 |
代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 吕梦雪 |
地址: | 100102 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 存储 介质 计算机 设备 | ||
本发明公开了一种工单文本的分类方法、装置、存储介质及计算机设备,涉及自然语言处理技术领域。其中方法包括:获取待处理的工单文本,并对工单文本进行关键词标注处理,得到工单文本的关键词标注信息;根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本;按照预设的文本长度,对排序后的工单文本进行截取处理,得到预处理后的工单文本;对预处理后的工单文本进行分类处理,得到工单文本的分类结果。上述方法可以降低工单文本中关键信息损失的概率,最大限度的保证了工单文本的信息完整性且满足了模型对文本长度的限制,从而有效的降低了工单文本被误判的概率,提高了工单文本的分类准确性。
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种工单文本的分类方法、装置、存储介质及计算机设备。
背景技术
工单,即工作单据的简称。在很多领域中,工单都是一种较为重要的工作凭证性文件。一般来说,在工单制作完成后,都需要工作人员对工单进行质检或审核,关键信息不全的工单会被认为是无效工单。当工单的数量较为庞大时,工单质检将是一项非常耗时的工作,目前,较为惯用的工单质检策略是利用文本分类模型对工单进行分类处理,从而过滤掉部分无效的工单,以降低人工质检的工作量。
然而,由于工单的制作方式和具体内容差异性较大,时常就会出现工单文本的段落长短不一致和工单文本中的关键信息较为稀疏和离散等问题。此时,利用文本分类模型直接对工单文本进行分类操作,就会出现文本长度超过模型限制而无法分类或分类不准确等问题。以往,针对文本长度超过限制的工单文本,都会采用由句首向后截取或由句尾向前截取等方式进行预处理,然而,这样的工单文本预处理方式会造成工单文本中的关键词丢失,最终导致工单文本的分类结果被误判。
发明内容
有鉴于此,本申请提供了一种工单文本的分类方法、装置、存储介质及计算机设备,主要目的在于解决工单文本分类结果不准确的技术问题。
根据本发明的第一个方面,提供了一种工单文本的分类方法,该方法包括:
获取待处理的工单文本,并对工单文本进行关键词标注处理,得到工单文本的关键词标注信息;
根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本;
按照预设的文本长度,对排序后的工单文本进行截取处理,得到预处理后的工单文本;
对预处理后的工单文本进行分类处理,得到工单文本的分类结果。
可选的,获取待处理的工单文本,并对工单文本进行关键词标注处理,得到工单文本的关键词标注信息,包括:获取待处理的录音文件,并对录音文件进行文字转换处理,得到待处理的工单文本;通过预训练的命名实体识别模型,对工单文本中的关键词进行标注,得到工单文本的关键词标注信息。
可选的,工单文本的关键词标注信息包括关键词在工单文本中的位置信息,工单文本包括多个字符串;则根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本,包括:根据关键词在工单文本中的位置信息,确定工单文本中每个字符串包含的关键词数量;按照工单文本中每个字符串包含的关键词数量,对工单文本中的多个字符串进行降序排列,得到排序后的工单文本。
可选的,工单文本的关键词标注信息包括关键词在工单文本中的位置信息和关键词的权重信息,工单文本包括多个字符串;则根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本,包括:根据关键词在工单文本中的位置信息和关键词的权重信息,确定工单文本中每个字符串对应的关键词权重信息;按照工单文本中每个字符串对应的关键词权重信息,对工单文本中的多个字符串进行降序排列,得到排序后的工单文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京健康之家科技有限公司,未经北京健康之家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210040355.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自然人的数字化映射方法
- 下一篇:一种新能源太阳能板生产用表面涂料装置