[发明专利]智能文本数据处理方法和装置、计算设备、存储介质有效
申请号: | 201910718221.5 | 申请日: | 2019-08-05 |
公开(公告)号: | CN110442716B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 童丽霞;马鸣 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 马媛媛;王琦 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 文本 数据处理 方法 装置 计算 设备 存储 介质 | ||
本发明实施例公开了一种智能文本数据处理方法和装置、计算设备、存储介质,该智能文本数据处理方法包括:显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。本发明实施例能实现文本数据的自动处理。
技术领域
本发明涉及计算机技术领域,具体涉及一种智能文本数据处理方法和装置、计算设备、存储介质。
背景技术
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
传统的客服机器人上线之前一般需要运营人员对大量的语料进行知识梳理,并在经过不断的修改优化后,将知识录入系统,知识录入完成后,运营人员还要对每一个知识点进行语料标注。
上述技术方案存在以下不足之处:
一、知识梳理和录入需要耗费大量的人力。
二、由于标注量大,耗时长,客服机器人从立项到上线平均需要一个月(配备两个运营人员)。
三、无法将海量的工单数据利用起来,所利用的语料有限。
四、不同的运营人员存在认知差异,容易造成所梳理、录入、标注的知识不统一。
综上,上述传统的技术方案无法实现文本数据的自动处理,因此需要耗费大量的人力和时间。
故,有必要提出一种新的技术方案,以解决上述技术问题。
发明内容
本发明的目的在于提供一种智能文本数据处理方法和装置、计算设备、存储介质,其能实现文本数据的自动处理。
为解决上述问题,本发明实施例的技术方案如下:
第一方面,提供一种智能文本数据处理方法,包括:显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
第二方面,提供一种智能文本数据处理方法,包括:对获取到的语料文本数据进行聚类,得到语料聚类集合;对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;将提取到的词语组合成与所述语料聚类集合对应的词条标识。
第三方面,提供一种智能文本数据处理装置,包括:显示模块,用于显示语料文本导入界面;获取模块,用于当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;展示模块,用于在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
第四方面,提供一种智能文本数据处理装置,包括:聚类模块,用于对获取到的语料文本数据进行聚类,得到语料聚类集合;提取模块,用于对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;组合模块,用于将提取到的词语组合成与所述语料聚类集合对应的词条标识。
第五方面,提供一种计算设备,所述计算设备包括处理器和存储器,所述存储器用于存储程序代码,所述计算设备运行时,所述处理器用于执行所述程序代码,以执行上述第一方面的文本数据处理方法。
第六方面,提供一种存储有程序代码的计算机可读存储介质,所述程序代码用于使得计算机执行上述第一方面的文本数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910718221.5/2.html,转载请声明来源钻瓜专利网。